|
吞吐量提高 70%、延迟降 53%!硬件高效注意力:解锁解码速度与性能极限!比 FlashMLA 快... NeuralTalk · 公众号 · · 3 周前 · |
|
Next Decade AI Performance, Power, Area with Co-op... NeuralTalk · 公众号 · · 3 周前 · |
|
GPU Kernel Scientist:LLM 驱动下的 GPGPU Kernel 迭代框架 NeuralTalk · 公众号 · · 3 周前 · |
|
比 Ansor 平均快 2.7 倍!调优快70倍!基于分块表达式与搜索空间剪枝的 MBCI 算子链快... NeuralTalk · 公众号 · · 3 周前 · |
|
MLSys2025:减少 55% 代码行数,降低 CPU 和 GPU 峰值内存,Negativa-M... NeuralTalk · 公众号 · · 4 周前 · |
|
硬件视角下 LLM 推理加速综述(终篇):各硬件推理表现比较(每焦耳 token 数)、优化方法与未... NeuralTalk · 公众号 · · 1 月前 · |
|
硬件视角下 LLM 推理加速综述(第二篇):各硬件平台加速方法 Sparsity、Fast Deco... NeuralTalk · 公众号 · · 1 月前 · |
|
Can LLMs Understand IR in Compilers?从结构分析、语法语义、执行推... NeuralTalk · 公众号 · · 1 月前 · |
|
迁移 CUDA 代码到其它硬件!HPCTransCompile:用 LLM 对 CUDA 代码转义!... NeuralTalk · 公众号 · · 1 月前 · |
|
CompilerDream:学习用于通用代码优化的编译器世界模型,超越内置编译器优化标志和最先进方法... NeuralTalk · 公众号 · · 1 月前 · |
|
MoE 所有层融到一个分布式算子GPU Kernel!FlashDMoE:GPU内核-硬件协同解锁大... NeuralTalk · 公众号 · · 1 月前 · |