|
|
TIRx:TVM新一代硬件内核DSL,FP8/NVFP4/FlashAttention4实测性能逼近... NeuralTalk · 公众号 · · 2 天前 · |
|
|
重新思考 FP4 预训练!收缩偏置才是 E2M1 FP4 训练不稳定的根源,UFP4 均匀格式将 1... NeuralTalk · 公众号 · · 3 天前 · |
|
|
RIGEL:逆向拆解 Apple M4 Max GPU 的 Metal 4.1 张量计算通路 NeuralTalk · 公众号 · · 3 天前 · |
|
|
NVIDIA 官方 Agent Skills:为 AI 智能体装进"NVIDIA 官方知识",重塑智... NeuralTalk · 公众号 · · 4 天前 · |
|
|
树莓派端到端 CNN 提速近 5 倍!面向树莓派 5 QPU 的轻量化机器学习运行时栈 NeuralTalk · 公众号 · · 4 天前 · |
|
|
首个跨 NVIDIA, AMD, Intel, Apple 的 16 代微架构 GPU ISA 研究... NeuralTalk · 公众号 · · 5 天前 · |
|
|
INT21 与 PTX Kernel 工厂:告别底层调优难题,智能系统让英伟达 GPU 跑得更快 NeuralTalk · 公众号 · · 1 周前 · |
|
|
GPU开销直降64%、智能体交互降 62%!易于 Agent 开发的精简 MoE 训练系统 Pith... NeuralTalk · 公众号 · · 1 周前 · |
|
|
性能超越 Claude Opus 4.7!开源 GPU Kernel 生成模型 MusaCoder,... NeuralTalk · 公众号 · · 1 周前 · |
|
|
突破 GPU 静态并行局限,上交提出 GF-DiT 实现自适应 DiT 服务,吞吐量最高提升 6 倍... NeuralTalk · 公众号 · · 1 周前 · |
|
|
异构智能体之间的“读心术”:稠密 KV 缓存高效通信实现 2-3 倍算力优化 NeuralTalk · 公众号 · · 1 周前 · |
|
|
打破 2 比特 KV 精度魔咒:OSCAR 实现近无损 2 比特压缩,大批次吞吐量达 BF16 的 ... NeuralTalk · 公众号 · · 1 周前 · |