|
HeteroLLM:利用移动端 SoC 实现 NPU-GPU 并行异构 LLM 推理!以 高通8 G... NeuralTalk · 公众号 · · 1 月前 · |
|
2.1倍加速!吞吐量超同等 Qwen3 17%!华为 Pangu Light:激进剪枝下加速!昇腾 ... NeuralTalk · 公众号 · · 1 月前 · |
|
低功耗高性能!TeLLMe:首个 FPGA 三值 LLM 加速器!三值矩阵乘法查找表和预填充注意力协... NeuralTalk · 公众号 · · 1 月前 · |
|
AMD 收购 AI 推理芯片初创公司 Untether AI 的团队 NeuralTalk · 公众号 · · 1 月前 · |
|
减少 33.4% 访存,2.56 倍加速!NPU SoC 多 DNN 执行架构与共享缓存调度的协同设... NeuralTalk · 公众号 · · 1 月前 · |
|
超越 Triton?任意低精度 GPGPU 计算虚拟机,加速 LLM 服务 NeuralTalk · 公众号 · · 2 月前 · |
|
我们是否应该用 Lite-GPU 构建 AI 集群? NeuralTalk · 公众号 · · 2 月前 · |
|
Prefill 1.3倍、Decode 1.7倍加速!混合 CPU-GPU 调度和 Cache 管理... NeuralTalk · 公众号 · · 2 月前 · |