华为昇腾万卡集群揭秘：如何驯服AI算力「巨兽」？

雷峰网 · 公众号 · 科技媒体 · 2025-06-09 21:37

主要观点总结

本文介绍了华为团队在AI算力集群方面的研究和创新，包括超节点高可用、集群线性度、万卡集群训练快速恢复、MoE模型推理容错、集群故障感知及感知诊断、集群仿真建模、框架迁移等方面的全维度方案。文章还提到了随着新型应用和硬件系统的持续创新，未来算力基础设施的演进趋势。

通过备用替身机制确保AI训练和推理的连续性，防止因个别设备故障导致全盘停止。华为团队提出了针对超节点的故障容错方案，包括系统层、业务层和运维层容错，将故障问题转为亚健康问题，通过运维手段消除。

通过精密的任务分配算法，让每台计算机像交响乐团中的乐手一样各司其职，实现算力随规模增长而提升。华为团队提出关键技术实现盘古模型训练线性度提升。

系统可以自动记录最近的训练进度，一旦检测到故障，能快速定位问题并跳过故障部分，从最新存档点继续训练。华为团队提出了多个创新来缩短训练恢复时间。

针对超大规模MoE模型带来的推理架构可靠性问题，提出了三级容错方案，包括实例内快速重启恢复技术、TOKEN级重试和减卡弹性恢复技术。

算力集群里有实时监控系统，像给每台计算机安装“健康手环”，持续监测各项指标。一旦发现异常，系统会快速定位问题并启动修复机制。华为团队提供了全面的故障管理解决方案和故障诊断技术。

在正式开展AI模型训推之前，可以在虚拟环境的“数字化风洞”中进行模拟彩排，预测模型在真实场景中的表现。华为团队提出了系统化的马尔科夫建模仿真平台。

华为推出的全场景AI框架昇思MindSpore提供了兼容方案，适应大模型时代的挑战和需求。训练阶段和推理阶段都有相应的迁移技术和优化手段。

随着新型应用、硬件系统的持续创新和系统架构的演进，未来算力基础设施将走向算法、算力和工程协同进化的道路，形成“应用需求→硬件创新→工程反哺”的闭环。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址 (快捷配置)
总结与预览地址：访问文章预览/总结
文章地址：访问文章快照

分享到微博