今天看啥  ›  专栏  ›  DASOU

重磅!清华正式开源首个全异步强化学习训练系统!

DASOU  · 公众号  · 科技自媒体  · 2025-06-08 18:26
    

主要观点总结

文章介绍了清华大学交叉信息院和蚂蚁技术研究院的联合团队开发的全新异步强化学习训练系统——AReaL-boba²。作为AReaL里程碑版本AReaL-boba的重大升级,AReaL-boba²以全异步RL为核心,实现了效率提升,代码任务新SOTA诞生,并支持多轮智能体强化学习训练。文章还详细描述了AReaL-boba²的设计原理,如何解决同步RL训练的痛点,以及通过算法系统co-design实现完全异步RL训练的方法。此外,团队还提供了训练数据、训练脚本和评估脚本,以及完整的技术报告,确保可以在AReaL上复现训练结果并进行后续开发。

关键观点总结

关键观点1: AReaL-boba²作为AReaL-boba的升级,实现了全异步强化学习训练,效率大幅提升。

AReaL-boba²通过算法系统co-design实现全异步RL训练,解决了同步RL训练的痛点,如GPU资源利用率低、训练速度慢等问题。通过数据陈旧度控制和解耦近端策略优化目标等算法改进,保证了收敛性能。此外,AReaL-boba²还支持多轮智能体强化学习训练,拥抱Agentic RL浪潮。

关键观点2: AReaL-boba²实现了代码任务新SOTA。

基于Qwen3系列模型RL训练,8B/14B模型在LiveCodeBench, Codeforce, Codecontest等benchmark上达到SOTA水准。团队还基于开源数据集发布了完全开源可复现的AReaL-boba²-Open系列模型,同样能在8B和14B尺寸上大幅超过现有基线。

关键观点3: AReaL-boba²提供了训练数据、训练脚本和评估脚本,以及完整的技术报告。

为了助力开发者轻松复现SOTA代码模型,团队提供了训练数据、训练脚本和评估脚本。技术报告中包含了丰富的技术细节,如数据集构成、奖励函数设置、模型生成方式等。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照