专栏名称: 青稞AI

青年AI研究员idea加油站，AI开发者的新能源充电桩。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

当谈论 FP8 训练的时候，我们到底在聊什么?

青稞AI · 公众号 · AI · 2025-11-07 00:00

主要观点总结

本文详细介绍了FP8精度训练的技术细节，包括其计算、存储和通信等方面的优化。FP8是一种8位浮点数格式，NVIDIA的Tensor Core支持其运算。使用FP8进行训练可以加速计算、节约显存并加速通信，同时给出了三种FP8训练方案：Per-tensor scaling、Blockwise scaling和MXFP8 scaling。文章还讨论了FP8训练对显存的影响，指出FP8可以减少激活值的显存占用，但可能增加权重显存占用。此外，文章还讨论了FP8训练在模型并行通信中的应用，如TP和EP通信的FP8加速方案。

关键观点总结

关键观点1: FP8简介

FP8是一种8位浮点数格式，NVIDIA的Tensor Core支持其运算。使用FP8进行训练可以加速计算、节约显存并加速通信。

关键观点2: FP8训练方案

给出了三种FP8训练方案：Per-tensor scaling、Blockwise scaling和MXFP8 scaling，并讨论了它们的计算流程和存储需求。

关键观点3: FP8对显存的影响

FP8可以减少激活值的显存占用，但可能增加权重显存占用。讨论了FP8训练在模型并行通信中的应用，如TP和EP通信的FP8加速方案。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

量子位 · Agent、多模态、应用、算力一天看尽，峰会亮点在此｜5.20日，来现场一起AI

6 小时前

机器之心 · 多模态 RAG 才是企业知识库低效瓶颈的解药？

13 小时前

赛博禅心 · 帮 DeepSeek 招个人

昨天

爱可可-爱生活 · 【从堆代码行数到刷Token，职场考核陷入指标陷阱】快速阅读：当-20260516081609

昨天

宝玉xp · 【ChatGPT 现在能看你的银行账户了】OpenAI 今天给美-20260516031153

昨天

灌南发布 · 灌南县返乡创业就业服务驿站授牌！

1 年前

智能建筑电气技术杂志 · 【IBE】关于排烟防火阀联动关闭排烟风机的讨论

1 年前

华夏能源网 · 15年风电江湖风云录：藏在TOP10榜单中的成功与失败密码！

1 年前

深圳新闻网 · 覆盖企业全生命周期！刚刚，深圳发布“创业大礼包”！

1 年前

CFW服装人才网 · 滔搏卖的冲锋衣，比始祖鸟还贵

1 年前