|
|
Next Decade AI Performance, Power, Area with Co-op... NeuralTalk · 公众号 · · 10 月前 · |
|
|
GPU Kernel Scientist:LLM 驱动下的 GPGPU Kernel 迭代框架 NeuralTalk · 公众号 · · 10 月前 · |
|
|
比 Ansor 平均快 2.7 倍!调优快70倍!基于分块表达式与搜索空间剪枝的 MBCI 算子链快... NeuralTalk · 公众号 · · 10 月前 · |
|
|
MLSys2025:减少 55% 代码行数,降低 CPU 和 GPU 峰值内存,Negativa-M... NeuralTalk · 公众号 · · 10 月前 · |
|
|
硬件视角下 LLM 推理加速综述(终篇):各硬件推理表现比较(每焦耳 token 数)、优化方法与未... NeuralTalk · 公众号 · · 10 月前 · |
|
|
硬件视角下 LLM 推理加速综述(第二篇):各硬件平台加速方法 Sparsity、Fast Deco... NeuralTalk · 公众号 · · 10 月前 · |
|
|
Can LLMs Understand IR in Compilers?从结构分析、语法语义、执行推... NeuralTalk · 公众号 · · 10 月前 · |
|
|
迁移 CUDA 代码到其它硬件!HPCTransCompile:用 LLM 对 CUDA 代码转义!... NeuralTalk · 公众号 · · 10 月前 · |
|
|
CompilerDream:学习用于通用代码优化的编译器世界模型,超越内置编译器优化标志和最先进方法... NeuralTalk · 公众号 · · 10 月前 · |
|
|
MoE 所有层融到一个分布式算子GPU Kernel!FlashDMoE:GPU内核-硬件协同解锁大... NeuralTalk · 公众号 · · 10 月前 · |
|
|
HeteroLLM:利用移动端 SoC 实现 NPU-GPU 并行异构 LLM 推理!以 高通8 G... NeuralTalk · 公众号 · · 10 月前 · |