【重磅开源】强化学习训练框架ROLL，淘天联合爱橙发布高效支持十亿到千亿参数大模型训练

深度强化学习实验室 · 公众号 · AI媒体科技自媒体 · 2025-06-25 12:25

主要观点总结

文章介绍了淘天集团与爱橙科技联合开源的新一代强化学习训练框架ROLL。该框架专为高效、可扩展和易用而设计，支持从小模型到超大模型的RL训练。文章详细阐述了ROLL的关键特性、技术细节、实验表现以及未来发展规划。

ROLL是淘天集团与爱橙科技联合开源的新一代强化学习训练框架，面向用户友好设计，旨在提高大语言模型性能。

ROLL具有多任务强化学习、智能体强化学习、算法友好、丰富的训推引擎、弹性资源调度与分布式并行、极致易用与模块化扩展等关键特性。

ROLL基于《Hybridflow: A flexible and efficient rlhf framework》中的单控制器架构，通过引入并行工作器、优化并行策略和数据传输模块、Rollout调度器、环境工作器和奖励工作器等，实现灵活且模块化的强化学习训练流程。

在Qwen2.5-7B-base与Qwen3-30B-A3B-base等模型上，ROLL取得了显著的跨领域多任务性能提升。此外，在智能体交互场景中，ROLL展现了强大的稳健性。

ROLL项目仍在持续迭代，未来计划支持更多新特性，如Qwen2.5 VL Agentic RL、一步式异步pipeline、FSDP2、DeepSeekV3等。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博