专栏 RSS订阅(公众号)
温馨提示:订阅专栏后它将会自动更新,无人订阅的专栏有可能不会更新。
专栏 二维码
TodayRss-海外RSS稳定源
他们也喜欢这个专栏
 • 
RSS订阅
今天看啥  ›  专栏  ›  NeuralTalk
关注深度学习框架开发、模型压缩、低比特量化、移动端推理加速性能优化、工程化部署
免责声明:本专栏仅为信息导航参考,不代表原文立场或观点。 原专栏内容版权归原作者所有,如您为原作者并希望删除该专栏,请通过 【版权申诉通道】联系我们处理。
开通 RSS极速订阅 可分钟级获得文章
骁龙 8 Gen3 预填充 CPU 性能反超 NPU:移动端大模型异构推理能力重估
NeuralTalk  ·  公众号  ·  ·  2 周前  · 
全智能体与人机协同双方案复盘 GPU Kernel 生成与优化:MLSys 2026 FlashIn...
NeuralTalk  ·  公众号  ·  ·  2 周前  · 
对标 A100:拆解摩尔线程开源的 GPU 驱动级基准测试 gpu-compute-driver-b...
NeuralTalk  ·  公众号  ·  ·  3 周前  · 
超优化驱动的数值计算库自动学习系统,实现数学原语高效挖掘与最高 2.2× 性能增益
NeuralTalk  ·  公众号  ·  ·  3 周前  · 
RTP-LLM:阿里开源工业级 LLM 推理引擎,模型加载提速 6.3 倍、TTFT 降低 37%,...
NeuralTalk  ·  公众号  ·  ·  3 周前  · 
Qwen3-Next 实测性能暴涨!KVBuffer:IO 感知的线性注意力服务机制
NeuralTalk  ·  公众号  ·  ·  3 周前  · 
11倍TTFT提速,零吞吐量损失!Stream2LLM 上下文流式化重构,让 RAG 系统真正实时
NeuralTalk  ·  公众号  ·  ·  3 周前  · 
一行 import 换掉整条编译路径:Numba-CUDA-MLIR 用方言降级重写 Python ...
NeuralTalk  ·  公众号  ·  ·  3 周前  · 
34.93 倍加速!MLSys 26 DSA 智能体赛道冠军方案,一套规则手册与三个子智能体替代人类...
NeuralTalk  ·  公众号  ·  ·  4 周前  · 
MLSys 26 NVIDIA Blackwell 内核竞赛纯智能体方案 Kernel Design...
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
速度:大模型推理的下一个 Scaling Law,深度解析 TileRT 高性能推理引擎及 GLM-...
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
把 GPU 编程模型搬上 CPU:解剖 PoCL 的 OpenCL 编译器内核
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
从词法到语义:slang 项目用现代 C++构建最快的 SystemVerilog 编译器前端
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
240 万芯片实现 99%系统正常运行时间,谷歌提出完全异步分布式训练框架 Decoupled Di...
NeuralTalk  ·  公众号  ·  ·  1 月前  ·