今天看啥  ›  专栏  ›  机器之心

以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!

机器之心  · 公众号  · AI  · 2025-05-23 12:17
    

主要观点总结

华为团队针对大语言模型(LLM)推理过程中的效率问题,发布了三大重要技术,旨在提高大模型推理的“速度”与“能效”。这三项技术包括AMLA算子、融合算子和SMTurbo,分别解决了算力利用率、多卡协同和内存访问延迟等问题。这些技术为AI大模型的执行计算提供了原子级工具,并实现了能效、速度和内存访问等方面的全面突破。

关键观点总结

关键观点1: AMLA算子通过数学优化提高算力利用率

AMLA算子通过加代乘的高性能昇腾 MLA 算子,用「数学魔法」重构浮点运算,让昇腾芯片的算力利用率突破70%。

关键观点2: 融合算子技术实现计算、通信和存储的协同优化

融合算子技术将多个算子合而为一,通过指令级流水编排实现计算耗时相互掩盖,并消除了冗余数据搬运,实现了更高的性能。

关键观点3: SMTurbo技术降低内存访问延迟

SMTurbo技术通过打造内存访问的「高速公路」,实现了跨384卡的超低延迟。该技术提升了昇腾芯片每线程的访存吞吐,降低了同步开销。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址: 访问原文地址 (快捷配置)
总结与预览地址:访问文章预览/总结
文章地址: 访问文章快照