专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

领英公司动态RSS订阅方法

RSS代理RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

清华第三代Sage注意力发布！提速5倍，精度不降，训推都能用

新智元 · 公众号 · AI · 2025-07-07 19:00

主要观点总结

清华大学朱军教授团队提出了SageAttention3注意力机制，利用FP4量化实现推理加速，比FlashAttention快5倍。该研究探索了8比特注意力用于训练任务的可行性，在微调中实现了无损性能。文章介绍了量化在模型推理过程的作用、注意力机制的核心问题、SageAttention3的创新点及其实验结果。

关键观点总结

关键观点1: SageAttention3利用FP4量化实现推理加速，提高了模型运算速度。

清华大学朱军教授团队提出的SageAttention3采用FP4量化，实现了1038万亿次每秒运算（TOPS），比FlashAttention快了5倍。

关键观点2: SageAttention3探索了8比特注意力用于训练任务的可行性。

该团队在研究过程中，尝试了使用8比特可训练注意力机制（SageBwd）微调基础模型，在性能上没有任何损失，证明了低比特注意力在训练任务中的潜力。

关键观点3: SageAttention3解决了量化过程中的精度损失问题。

团队通过两级量化方法、微缩比例矩阵乘法和硬件优化等技术，减少了量化误差，提高了注意力机制的精度。

关键观点4: SageAttention3在多个实验中都保持了高效的性能。

无论是在视频生成还是图像生成任务中，SageAttention3都完全保持了生成质量，并且在RTX5090上实现了大约3倍和2.4倍的端到端推理生成加速。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址 (快捷配置)
总结与预览地址：访问文章预览/总结
文章地址：访问文章快照

分享到微博

推荐文章

新智元 · Claude Code官宣下一版大升级！你在聊天，后台把活干完了

14 小时前

深度学习与NLP · 院士坦言：如果没有项目或“帽子”，不足以让科研人过上“体面的生活”

昨天

新智元 · 顶尖AI黑马开始「白送」模型了？全球700亿短剧市场门槛打穿

昨天

机器之心 · 近80年后，埃尔德什经典「拉姆齐数下界」，被三位中国学者首次指数级改进

昨天

优设AIGC · 强到离谱！GPT 5.6突然发布，超越Claude Fable却遭紧急封锁，99%的人用不了？

2 天前

智研咨询 · 中国抗肿瘤药物行业发展趋势：抗肿瘤分化发展趋势明显[图]

2 年前

弗雷赛斯 · 画科研机制图，我们599元封顶

2 年前

Supreme情报网 · 8双「LV Trainer」集体曝光发售！大更新了...

1 年前

人民日报数字传播 · 大年初三 | 福禄双全

1 年前

张化桥 · 中国应该实行零利率政策吗？今天英国金融时报有一篇文章，标题为Sh-20250717140026

11 月前