注册登录

专栏名称: 锦秋集

锦秋基金是一家双币早期投资机构，我们长期投资那些勇敢的科技创业者，助力其造就伟大公司。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

目录

相关文章推荐

鞭牛士 · 黄仁勋逛南锣鼓巷，手拿蜜雪冰城、还喝豆汁 · 11 小时前

雷峰网 · 桌面CNC元年：资本疯抢「小拓竹」，五轴是风 ... · 昨天

腾讯科技 · 田渊栋履新：联手多位AI大牛，6.5亿美元押 ... · 昨天

IT之家 · 【国产 3A ... · 昨天

雷峰网 · 起底腾讯 AI Lab 的十年沉浮 · 昨天

今天看啥 › 专栏 › 锦秋集

融资20亿美元的Thinking Machines Lab首次公开：破解LLM随机性，实现可复现的“...

锦秋集 · 公众号 · AI媒体科技媒体 · 2025-09-11 17:17

主要观点总结

这篇文章深入探讨了大型语言模型（LLM）推理结果不确定性的根本原因，并提出了一套解决方案，通过重写Transformer模型中的RMSNorm、矩阵乘法和注意力机制这三个关键计算模块，使它们具备“批次不变性”，确保计算过程不受批次大小干扰。实验结果表明，该方案可以有效地消除LLM推理中的不确定性，实现可复现的结果。作者还讨论了同策略强化学习的概念，并展示了该方案如何帮助实现真正的同策略RL。

关键观点总结

关键观点1: 大型语言模型推理结果不确定性的原因

文章揭示了大型语言模型推理结果不确定性的根本原因并非普遍认为的“并发计算与浮点数误差”，而是核心计算算子缺乏“批次不变性”（Batch Invariance）。推理服务器会将不同用户的请求动态地打包（batch）在一起处理，而当前主流的底层计算库在设计上，会导致单个请求的计算过程受到整个“批次”大小的影响，引入不确定性。

关键观点2: 解决方案的实现

文章提出并实现了一套解决方案，即重写Transformer模型中的RMSNorm、矩阵乘法和注意力机制这三个关键计算模块，使它们具备“批次不变性”，确保计算过程不受批次大小干扰。实验结果证明了这一点，在标准环境中，一个请求重复1000次会得到80个不同版本的结果；而在他们的方案下，1000次请求的结果则完全一致。

关键观点3: 同策略强化学习的概念

作者讨论了同策略强化学习的概念，并展示了该方案如何帮助实现真正的同策略RL。传统的强化学习通常涉及到训练与推理之间的数值差异，这导致隐式地将同策略RL变成了异策略RL。而通过实现可复现的推理结果，可以在训练和推理之间获得逐比特相同的结果，实现真正的同策略RL。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

鞭牛士 · 黄仁勋逛南锣鼓巷，手拿蜜雪冰城、还喝豆汁

11 小时前

雷峰网 · 桌面CNC元年：资本疯抢「小拓竹」，五轴是风口还是伪命题？

昨天

腾讯科技 · 田渊栋履新：联手多位AI大牛，6.5亿美元押注“会自我进化的AI”

昨天

IT之家 · 【国产 3A 游戏《影之刃零》：实体版预售及定价相关内容均不实，-20260514114659

昨天

雷峰网 · 起底腾讯 AI Lab 的十年沉浮

昨天

武汉组工 · 洪山区选调生选聘生座谈会召开

1 年前

机器人大讲堂 · 泳池清洁机器人成新焦点？9月中国机器人行业融资动态全览

1 年前

第一财经资讯 · 扩围至近300个城市！城中村改造加速推进

1 年前

电脑吧评测室 · 最强旗舰白卡降临—七彩虹iGame GeForce RTX5090 D Vulcan W OC 32GB首发评测

1 年前

大江新闻 · 小米将多枚Kimi商标转让给月之暗面

11 月前

关于移动版 · TodayRss海外 · RSS之家 · 卧龙AI搜索

今天看啥 - 公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

© 2025 ~ 沪ICP备11025650号