专栏 RSS订阅(公众号)
温馨提示:订阅专栏后它将会自动更新,无人订阅的专栏有可能不会更新。
专栏 二维码
TodayRss-海外RSS稳定源
他们也喜欢这个专栏
 • 
RSS订阅
今天看啥  ›  专栏  ›  NeuralTalk
关注深度学习框架开发、模型压缩、低比特量化、移动端推理加速性能优化、工程化部署
免责声明:本专栏仅为信息导航参考,不代表原文立场或观点。 原专栏内容版权归原作者所有,如您为原作者并希望删除该专栏,请通过 【版权申诉通道】联系我们处理。
开通 RSS极速订阅 可分钟级获得文章
LLM 推理系统综述:从内存管理、系统架构到严峻挑战
NeuralTalk  ·  公众号  ·  ·  9 月前  · 
LLM 推理系统综述:从请求处理到模型优化与执行
NeuralTalk  ·  公众号  ·  ·  9 月前  · 
85倍TTFT提升且精度更优!源于苹果移动端AI实践的FastVLM:FastViTHD 驱动重新定...
NeuralTalk  ·  公众号  ·  ·  9 月前  · 
eGPU:让eBPF为GPU可观测性与可编程性赋能!首个动态PTX注入式eBPF-GPU框架,较NV...
NeuralTalk  ·  公众号  ·  ·  9 月前  · 
重读《机器学习科研的十年》:未来最难的,还是保持初心和热情!
NeuralTalk  ·  公众号  ·  ·  9 月前  · 
MobileLLM重构1B LLM设计:深度优先架构让iPhone续航延至全天,解码50tokens...
NeuralTalk  ·  公众号  ·  ·  9 月前  · 
TorchAO:PyTorch原生端到到框架,打通训练到移动端全链路!FP8/PTQ缩容4倍/延迟降...
NeuralTalk  ·  公众号  ·  ·  9 月前  · 
突破MoE在Hopper FP8分组GEMM性能瓶颈!TMA动态描述符+对齐管理告别Padding!...
NeuralTalk  ·  公众号  ·  ·  9 月前  · 
ISCA'25 建模GPU LLM推理性能AMALI: 借助张量核心优化与warp分布,推理误差低于...
NeuralTalk  ·  公众号  ·  ·  9 月前  · 
针对AMD AI Engine空间架构的可扩展BLAS库AIEBLAS:基于自动代码生成的创新实现方...
NeuralTalk  ·  公众号  ·  ·  9 月前  · 
W4A8 GEMM实现LLM 4.9倍加速!LiquidGEMM让反量化、权重加载和矩阵乘流水重叠,...
NeuralTalk  ·  公众号  ·  ·  9 月前  · 
实现 FA3 峰值性能 78.4%!基于Triton低级扩展的2-Simplicial Attent...
NeuralTalk  ·  公众号  ·  ·  9 月前  · 
端到端加速4.5倍!端侧SoC动态稀疏注意力 shadowAttn:关键token稀疏计算架构且兼容...
NeuralTalk  ·  公众号  ·  ·  9 月前  ·