专栏 RSS订阅(公众号)
温馨提示:订阅专栏后它将会自动更新,无人订阅的专栏有可能不会更新。
专栏 二维码
他们也喜欢这个专栏
 • 
RSS订阅
今天看啥  ›  专栏  ›  NeuralTalk
关注深度学习框架开发、模型压缩、低比特量化、移动端推理加速性能优化、工程化部署
免责声明:本专栏仅为信息导航参考,不代表原文立场或观点。 原专栏内容版权归原作者所有,如您为原作者并希望删除该专栏,请通过 【版权申诉通道】联系我们处理。
开通 RSS极速订阅 可分钟级获得文章
Meta 超大规模基础设施概述:10万块GPU与服务器规模下的97% 自动化部署、每 3 小时一次更...
NeuralTalk  ·  公众号  ·  ·  2 天前  · 
Triton 内核在 RISC-V 平台基于 MLIR 的编译与优化探索
NeuralTalk  ·  公众号  ·  ·  4 天前  · 
LLM推理极限建模:Bandwidth, Compute, Sync and Capacity ar...
NeuralTalk  ·  公众号  ·  ·  6 天前  · 
评估高通 100 Ultra 加速卡在 HPC 集群中的 LLM 推理性能与能效表现
NeuralTalk  ·  公众号  ·  ·  1 周前  · 
小语言模型调查:性能、架构创新与未来洞见
NeuralTalk  ·  公众号  ·  ·  1 周前  · 
性能较 TPUv5e 提升 4.83 倍!单脉动阵列内实现 FlashAttention 全流程且开...
NeuralTalk  ·  公众号  ·  ·  1 周前  · 
KPerfIR:扩展 Triton 面向 GPU 的开源编译器中心性能工具,以 8.2% 开销换 2...
NeuralTalk  ·  公众号  ·  ·  1 周前  · 
OSDI25:顺序性能优化系统化框架:三大原则、八大方法、SysGPT 建议模型(建议准确率超 GP...
NeuralTalk  ·  公众号  ·  ·  1 周前  · 
从 Bug 到 Feature:一段被嫌弃的 Kernel 的逆袭注脚
NeuralTalk  ·  公众号  ·  ·  1 周前  · 
0.6B 的小模型,能干啥?——从“玩具”到“打工人”的 Qwen3-0.6B
NeuralTalk  ·  公众号  ·  ·  2 周前  · 
树莓派跑 10B+参数 MoE!EdgeMoE:首款端侧稀疏 LLM 高性能引擎且代码开源!5.4×...
NeuralTalk  ·  公众号  ·  ·  2 周前  ·