专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

领英公司动态RSS订阅方法

RSS代理RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

以加代乘？华为数学家出手，昇腾算子的高能设计与优化，性能提升30%！

机器之心 · 公众号 · AI · 2025-05-23 12:17

主要观点总结

华为团队针对大语言模型（LLM）推理过程中的效率问题，发布了三大重要技术，旨在提高大模型推理的“速度”与“能效”。这三项技术包括AMLA算子、融合算子和SMTurbo，分别解决了算力利用率、多卡协同和内存访问延迟等问题。这些技术为AI大模型的执行计算提供了原子级工具，并实现了能效、速度和内存访问等方面的全面突破。

关键观点总结

关键观点1: AMLA算子通过数学优化提高算力利用率

AMLA算子通过加代乘的高性能昇腾 MLA 算子，用「数学魔法」重构浮点运算，让昇腾芯片的算力利用率突破70%。

关键观点2: 融合算子技术实现计算、通信和存储的协同优化

融合算子技术将多个算子合而为一，通过指令级流水编排实现计算耗时相互掩盖，并消除了冗余数据搬运，实现了更高的性能。

关键观点3: SMTurbo技术降低内存访问延迟

SMTurbo技术通过打造内存访问的「高速公路」，实现了跨384卡的超低延迟。该技术提升了昇腾芯片每线程的访存吞吐，降低了同步开销。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址 (快捷配置)
总结与预览地址：访问文章预览/总结
文章地址：访问文章快照

分享到微博

推荐文章

AI寒武纪 · 刚刚OpenRouter发布2026最值得关注的“开源F4”，开源追上闭源了，差距只剩3到6个月

昨天

AI思想会 · 英伟达年度「最危险」论文！AI自繁衍代码，无限刷级进化

昨天

机器之心 · 从第一性原理看机器人AI：为什么它比大模型更难？

昨天

AI寒武纪 · 刚刚DeepSeek开源推理神器DSpark，V4最高提速85%，连底层训练全家桶都开源了

2 天前

爱可可-爱生活 · 【AI大厂的“奢侈品”困局与开源模型的降维打击】现在的AI圈正演-20260627114241

2 天前

电化教育研究 · 视频中的交互设计可以促进学习吗？——基于53项实验与准实验的元分析

1 年前

南大就业 · 【外企】路易威登2025管理培训生项目启动

1 年前

王新宇beta11 · 闲扯几个最近 Apple 的流言

1 年前

中央戏剧学院就业创业指导中心 · 北京人民艺术剧院面向2025年应届毕业生公开招聘工作人员公告

1 年前