|
|
MoE 训练提速最高 38%!字节 Seed 开源 UniEP:首个训练级 MegaKernel 架... NeuralTalk · 公众号 · · 1 月前 · |
|
|
前Google TPU架构师访谈:从批大小经济学到MoE物理布局,从流水线并行陷阱到RL对训练策略颠... NeuralTalk · 公众号 · · 1 月前 · |
|
|
消除推荐系统广播税,从内存带宽到计算瓶颈的蜕变,揭秘 621 TFLOPS 的 Flash Atte... NeuralTalk · 公众号 · · 1 月前 · |
|
|
比NVIDIA Thor‑U快3.8倍,却少用一个缓存层级:理想汽车M100编排式数据流架构对AI推... NeuralTalk · 公众号 · · 1 月前 · |
|
|
7.2秒传输1T参数!大规模分布式强化学习中的 P2P 权重传输 NeuralTalk · 公众号 · · 1 月前 · |
|
|
从 AITER 内核到 P/D 分离,把 AMD GPU 推理优化从"算子快"推进到"系统快"的轻量... NeuralTalk · 公众号 · · 1 月前 · |