|
|
硬件视角下 LLM 推理加速综述(第二篇):各硬件平台加速方法 Sparsity、Fast Deco... NeuralTalk · 公众号 · · 11 月前 · |
|
|
Can LLMs Understand IR in Compilers?从结构分析、语法语义、执行推... NeuralTalk · 公众号 · · 12 月前 · |
|
|
迁移 CUDA 代码到其它硬件!HPCTransCompile:用 LLM 对 CUDA 代码转义!... NeuralTalk · 公众号 · · 12 月前 · |
|
|
CompilerDream:学习用于通用代码优化的编译器世界模型,超越内置编译器优化标志和最先进方法... NeuralTalk · 公众号 · · 1 年前 · |
|
|
MoE 所有层融到一个分布式算子GPU Kernel!FlashDMoE:GPU内核-硬件协同解锁大... NeuralTalk · 公众号 · · 1 年前 · |
|
|
HeteroLLM:利用移动端 SoC 实现 NPU-GPU 并行异构 LLM 推理!以 高通8 G... NeuralTalk · 公众号 · · 1 年前 · |
|
|
2.1倍加速!吞吐量超同等 Qwen3 17%!华为 Pangu Light:激进剪枝下加速!昇腾 ... NeuralTalk · 公众号 · · 1 年前 · |
|
|
低功耗高性能!TeLLMe:首个 FPGA 三值 LLM 加速器!三值矩阵乘法查找表和预填充注意力协... NeuralTalk · 公众号 · · 1 年前 · |
|
|
AMD 收购 AI 推理芯片初创公司 Untether AI 的团队 NeuralTalk · 公众号 · · 1 年前 · |