专栏 RSS订阅(公众号)
温馨提示:订阅专栏后它将会自动更新,无人订阅的专栏有可能不会更新。
专栏 二维码
TodayRss-海外RSS稳定源
他们也喜欢这个专栏
 • 
RSS订阅
今天看啥  ›  专栏  ›  NeuralTalk
关注深度学习框架开发、模型压缩、低比特量化、移动端推理加速性能优化、工程化部署
免责声明:本专栏仅为信息导航参考,不代表原文立场或观点。 原专栏内容版权归原作者所有,如您为原作者并希望删除该专栏,请通过 【版权申诉通道】联系我们处理。
开通 RSS极速订阅 可分钟级获得文章
W4A8 GEMM实现LLM 4.9倍加速!LiquidGEMM让反量化、权重加载和矩阵乘流水重叠,...
NeuralTalk  ·  公众号  ·  ·  8 月前  · 
实现 FA3 峰值性能 78.4%!基于Triton低级扩展的2-Simplicial Attent...
NeuralTalk  ·  公众号  ·  ·  8 月前  · 
端到端加速4.5倍!端侧SoC动态稀疏注意力 shadowAttn:关键token稀疏计算架构且兼容...
NeuralTalk  ·  公众号  ·  ·  8 月前  · 
30.9% 能耗节省!亚秒级 GPU 频率实时决策框架 AGFT:实现LLM推理实时功耗与性能的平衡...
NeuralTalk  ·  公众号  ·  ·  8 月前  · 
高通端侧生成式AI:Hexagon NPU架构创新与异构实现98%性能提升、0.6秒图像生成与20t...
NeuralTalk  ·  公众号  ·  ·  8 月前  · 
ISCA'24 揭示SRAM与计算资源最优配比!DSE创新方法Orojenesis:张量算法的可达数...
NeuralTalk  ·  公众号  ·  ·  8 月前  · 
注意力块 4 倍加速!Zen-Attention:面向AMD NPU基于硬件感知的动态注意力层折叠编...
NeuralTalk  ·  公众号  ·  ·  8 月前  · 
Qwen2-VL-3B 模型在瑞芯微 RK3576 开发板 NPU 上多模态和多轮对话部署指导与评测
NeuralTalk  ·  公众号  ·  ·  8 月前  · 
刷新RISC-V架构LLM效率!通过IREE支持linalg.mmt4d微内核与创新设计,实现50倍...
NeuralTalk  ·  公众号  ·  ·  8 月前  · 
Arm Neural Technology 全景解读:下一代移动 GPU 的 AI 超分、降噪与帧生...
NeuralTalk  ·  公众号  ·  ·  8 月前  · 
7%面积开销,45%能效提升!RISC-V向量处理器低运算强度工作负载优化方案TROOP,硬件优化近...
NeuralTalk  ·  公众号  ·  ·  8 月前  ·