|
|
性能直逼FA3/4!斯坦福NVIDIA提出Tensor Core GPU最优流水线和Warp Sep... NeuralTalk · 公众号 · · 5 月前 · |
|
|
LLM 推理微架构量化表征与优化:从 70% stall 率消解到跨场景高效部署指南 NeuralTalk · 公众号 · · 6 月前 · |
|
|
SuperOffload释放SuperChip大规模LLM训练性能,4芯片训练50B模型/吞吐超主流... NeuralTalk · 公众号 · · 6 月前 · |
|
|
NiceToMeetYou:MLIR 抽象变换器助力 LLVM 静态分析,17% 精度超越手工版 +... NeuralTalk · 公众号 · · 6 月前 · |
|
|
ProfilingGuided+LLM协同:TritonForge突破 Triton内核优化瓶颈,成... NeuralTalk · 公众号 · · 6 月前 · |
|
|
LLM 能效分析开源工具 ELANA:无需代码修改,精准评测每token焦耳数/模型大小/KV 缓存... NeuralTalk · 公众号 · · 6 月前 · |