「Next-Token」范式改变！刚刚，强化学习预训练来了

arXiv每日学术速递 · 公众号 · AI 科技媒体 · 2025-06-15 14:02

主要观点总结

文章介绍了微软提出的新研究，即强化预训练（RPT）范式，这是一种将强化学习应用于语言模型预训练的方法。RPT将传统的下一个token预测任务重构为推理任务，并提供了一种可扩展的方式利用海量文本数据进行通用强化学习。该方法可以提高语言模型的建模准确性，并为后续的强化微调提供了强大的预训练基础。

RPT是一种新的训练范式，将强化学习应用于语言模型的预训练阶段。它通过将传统的下一个token预测任务转化为推理任务，使模型能够在进行预测时获得可验证的奖励。

RPT范式提供了可扩展的方式利用海量文本数据进行通用强化学习，无需依赖特定领域的标注答案。它提高了语言模型的建模准确性，并为后续的强化微调提供了强大的预训练基础。此外，RPT范式还能够帮助模型进行更深入的理解和泛化。

实验使用OmniMATH数据集进行强化预训练，并展示了RPT范式的有效性。实验结果表明，RPT在提高语言模型的下一个token预测准确性方面优于基线方法，并且其性能随着训练计算的扩大而可靠地提高。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

爱可可-爱生活 · 本文通过严谨的几何学分析，颠覆性地证明了神经网络强化学习的内在复-20250803060256

22 小时前

新浪科技 · 【“亮证姐”身份已查清，#遭亮证男子将和官方及女司机见面协商#】-20250802220000

昨天

新智元 · 24岁辍学博士，小扎捧2.5亿薪酬包亲自上门抢人！AI顶薪已让NBA汗颜

2 天前

宝玉xp · 来自网友对神秘模型 Horizon Alpha (据传是 Ope-20250801101916

2 天前

爱可可-爱生活 · AI 与机器学习领域必关注的十大优质YouTube频道，涵盖理论-20250801105144

2 天前

张栋伟 · “嘀嗒”顺风车侵犯女大学生人身安全，竟无人处理？

7 月前

方达咨询 · “六个聚焦”绘就高质量发展新蓝图——宝鸡市投资集团未来这么干！

4 月前

海边的黄老板 · 正文：大家好啊，今天大盘继续高歌猛进，主板已经默默站上了3500-20250709114502

3 周前