今天看啥  ›  专栏  ›  蚂蚁技术AntTech

轻量级MoE推理模型Ring-lite开源,多项推理Benchmark达到SOTA!

蚂蚁技术AntTech  · 公众号  · 程序员  · 2025-06-21 12:04
    

主要观点总结

本文介绍了Ring-lite模型,一个轻量级的推理模型,采用了MoE架构并实现了多项推理榜单的SOTA效果。模型采用C3PO强化学习训练方法,解决了RL训练中的不稳定问题。文章还介绍了模型的主要技术亮点,包括稳定强化学习训练的C3PO方法、基于token efficiency的SFT和RL训练比重分配,以及分阶段训练缓解跨领域任务冲突等。此外,文章还提到了高质量Long-CoT和RL训练数据的构建和下一步计划。

关键观点总结

关键观点1: Ring-lite模型简介及成效

Ring-lite是一个轻量级推理模型,基于MoE架构,实现了多项推理榜单的SOTA效果。它使用了C3PO强化学习训练方法,解决了RL训练中的不稳定问题。

关键观点2: C3PO强化学习训练方法

C3PO是一种强化学习训练方法,主要解决了RL训练中由于回复长度波动导致的优化不稳定和吞吐波动问题。它通过固定每个step传给优化器的总训练token数来稳定训练。

关键观点3: 基于token efficiency的SFT和RL训练比重分配

为了解决Long-CoT SFT和RL的两阶段训练比重分配问题,我们从token efficiency的角度出发,通过找到最佳的token分配方案,实现了效果和token efficiency的平衡。

关键观点4: 分阶段训练缓解跨领域任务冲突

在Ring-lite的训练中,我们采用了分阶段训练方案,先训练数学任务,再进行代码和STEM任务的混合训练,以缓解跨领域任务冲突。

关键观点5: 高质量Long-CoT和RL训练数据的构建

我们构建了大规模高质量的长推理链数据和强化学习训练数据集,通过整合开源数据集和自主收集的数据,经过严格清洗和筛选,形成包含数学、编程和科学等领域的高质量数据集。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址: 访问原文地址 (快捷配置)
总结与预览地址:访问文章预览/总结
文章地址: 访问文章快照