|
|
308个分布式训推框架bug深度剖析:DeepSpeed、Megatron-LM及Colossal-... NeuralTalk · 公众号 · · 11 月前 · |
|
|
PipeThreader:软件定义流水线驱动的 DNN 编译器,FlashAttention与Mam... NeuralTalk · 公众号 · · 11 月前 · |
|
|
基于 LLM 跨硬件GEMM优化框架 QiMeng-GEMM:自动搜索元提示组合下特定规模显著优于c... NeuralTalk · 公众号 · · 11 月前 · |
|
|
一次编译,多平台运行!GPU 二进制文件兼容性在NVIDIA、AMD、Intel 和 Tenstor... NeuralTalk · 公众号 · · 11 月前 · |
|
|
高性能 5G移动 SoC 设计:面向 PPA(性能/功耗/面积)与可制造性的 5 nm EUV Fi... NeuralTalk · 公众号 · · 11 月前 · |
|
|
吞吐量提高 70%、延迟降 53%!硬件高效注意力:解锁解码速度与性能极限!比 FlashMLA 快... NeuralTalk · 公众号 · · 11 月前 · |
|
|
Next Decade AI Performance, Power, Area with Co-op... NeuralTalk · 公众号 · · 11 月前 · |
|
|
GPU Kernel Scientist:LLM 驱动下的 GPGPU Kernel 迭代框架 NeuralTalk · 公众号 · · 11 月前 · |
|
|
比 Ansor 平均快 2.7 倍!调优快70倍!基于分块表达式与搜索空间剪枝的 MBCI 算子链快... NeuralTalk · 公众号 · · 11 月前 · |
|
|
MLSys2025:减少 55% 代码行数,降低 CPU 和 GPU 峰值内存,Negativa-M... NeuralTalk · 公众号 · · 11 月前 · |
|
|
硬件视角下 LLM 推理加速综述(终篇):各硬件推理表现比较(每焦耳 token 数)、优化方法与未... NeuralTalk · 公众号 · · 11 月前 · |