专栏 RSS订阅(公众号)
温馨提示:订阅专栏后它将会自动更新,无人订阅的专栏有可能不会更新。
专栏 二维码
TodayRss-海外RSS稳定源
他们也喜欢这个专栏
 • 
RSS订阅
今天看啥  ›  专栏  ›  NeuralTalk
关注深度学习框架开发、模型压缩、低比特量化、移动端推理加速性能优化、工程化部署
免责声明:本专栏仅为信息导航参考,不代表原文立场或观点。 原专栏内容版权归原作者所有,如您为原作者并希望删除该专栏,请通过 【版权申诉通道】联系我们处理。
开通 RSS极速订阅 可分钟级获得文章
7.46倍性能提升!结果重用GEMM加速器Transitive Array,LLaMA模型实现3.9...
NeuralTalk  ·  公众号  ·  ·  10 月前  · 
94% GPU 利用率!Llama 模型推测解码 10%+ 提速与 2.0× 批量性能跃升!从训练到...
NeuralTalk  ·  公众号  ·  ·  10 月前  · 
Mind the Gap:LLM 在认知上与人类的核心差距,社交性、物理性缺失与抽象化偏向
NeuralTalk  ·  公众号  ·  ·  10 月前  · 
gem5:融合 M5 与 GEMS 的创新架构模拟器!被数百篇论文引用的架构建模工具
NeuralTalk  ·  公众号  ·  ·  10 月前  · 
AutoTriton:通过强化学习实现自动Triton编程!8B参数媲美Claude-4 与 Dee...
NeuralTalk  ·  公众号  ·  ·  10 月前  · 
计算所承办:大模型性能优化高级研修班!不收费,院里主办所里承包!席位有限,先到先得!
NeuralTalk  ·  公众号  ·  ·  10 月前  · 
突破 GPU 通信瓶颈:NCCL 协议创新与 25-95% 带宽利用率的量化研究
NeuralTalk  ·  公众号  ·  ·  10 月前  · 
ACL'25 TTFT 最高降 81.3%!MobiLoRA:端侧 LoRA-LLM 推理框架!基于...
NeuralTalk  ·  公众号  ·  ·  10 月前  · 
端侧微调 10B LLM!MobiLLM:低精度量化与端云协同,微调同时提供推理服务!让微调内存减少...
NeuralTalk  ·  公众号  ·  ·  10 月前  · 
Meta 超大规模基础设施概述:10万块GPU与服务器规模下的97% 自动化部署、每 3 小时一次更...
NeuralTalk  ·  公众号  ·  ·  10 月前  · 
Triton 内核在 RISC-V 平台基于 MLIR 的编译与优化探索
NeuralTalk  ·  公众号  ·  ·  11 月前  · 
LLM推理极限建模:Bandwidth, Compute, Sync and Capacity ar...
NeuralTalk  ·  公众号  ·  ·  11 月前  · 
评估高通 100 Ultra 加速卡在 HPC 集群中的 LLM 推理性能与能效表现
NeuralTalk  ·  公众号  ·  ·  11 月前  ·