|
|
端侧推理近 3 倍提速!清华北航提出基于闪存-DRAM、CPU-NPU 异构的投机解码系统 LEVE... NeuralTalk · 公众号 · · 2 周前 · |
|
|
把 H20 榨干到底:腾讯混元 AI Infra 团队的 HPC-Ops 如何用数百行 CuTe 改... NeuralTalk · 公众号 · · 3 周前 · |
|
|
超越 EAGLE3 与 DFlash!Domino 轻量级因果修正实现 SGLang 下最高 5.8... NeuralTalk · 公众号 · · 3 周前 · |
|
|
让具身智能推理延迟降 65%、token 省 50%!AgenticCache:从 CPU 分支预测... NeuralTalk · 公众号 · · 1 月前 · |
|
|
从"切多大、留什么、按什么顺序跑",重新定义编译器后端计算图调度:MLSys 2026 系统赛 A ... NeuralTalk · 公众号 · · 1 月前 · |
|
|
能效最高达 H100 3.23 倍!MemExplorer 框架重构面向 Agentic NPU 的... NeuralTalk · 公众号 · · 1 月前 · |