注册登录

专栏名称: 蚂蚁技术AntTech

分享蚂蚁集团的技术能力和技术文化。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

领英公司动态RSS订阅方法

RSS代理RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

目录

相关文章推荐

程序猿 · 去年7月被裁员的，到现在快一年了。突然前领导 ... · 17 小时前

OSC开源社区 · 🧠这大概是2026年最贴心的AI桌面硬件 · 昨天

程序员的那些事 · 求锤得锤！叫嚣“大不了进去”诋毁袁隆平科研成 ... · 昨天

码农翻身 · 他写的软件支撑着整个互联网，如今却因为 ... · 昨天

今天看啥 › 专栏 › 蚂蚁技术AntTech

轻量级MoE推理模型Ring-lite开源，多项推理Benchmark达到SOTA！

蚂蚁技术AntTech · 公众号 · 程序员 · 2025-06-21 12:04

主要观点总结

本文介绍了Ring-lite模型，一个轻量级的推理模型，采用了MoE架构并实现了多项推理榜单的SOTA效果。模型采用C3PO强化学习训练方法，解决了RL训练中的不稳定问题。文章还介绍了模型的主要技术亮点，包括稳定强化学习训练的C3PO方法、基于token efficiency的SFT和RL训练比重分配，以及分阶段训练缓解跨领域任务冲突等。此外，文章还提到了高质量Long-CoT和RL训练数据的构建和下一步计划。

关键观点总结

关键观点1: Ring-lite模型简介及成效

Ring-lite是一个轻量级推理模型，基于MoE架构，实现了多项推理榜单的SOTA效果。它使用了C3PO强化学习训练方法，解决了RL训练中的不稳定问题。

关键观点2: C3PO强化学习训练方法

C3PO是一种强化学习训练方法，主要解决了RL训练中由于回复长度波动导致的优化不稳定和吞吐波动问题。它通过固定每个step传给优化器的总训练token数来稳定训练。

关键观点3: 基于token efficiency的SFT和RL训练比重分配

为了解决Long-CoT SFT和RL的两阶段训练比重分配问题，我们从token efficiency的角度出发，通过找到最佳的token分配方案，实现了效果和token efficiency的平衡。

关键观点4: 分阶段训练缓解跨领域任务冲突

在Ring-lite的训练中，我们采用了分阶段训练方案，先训练数学任务，再进行代码和STEM任务的混合训练，以缓解跨领域任务冲突。

关键观点5: 高质量Long-CoT和RL训练数据的构建

我们构建了大规模高质量的长推理链数据和强化学习训练数据集，通过整合开源数据集和自主收集的数据，经过严格清洗和筛选，形成包含数学、编程和科学等领域的高质量数据集。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址 (快捷配置)
总结与预览地址：访问文章预览/总结
文章地址：访问文章快照

分享到微博

推荐文章

程序猿 · 去年7月被裁员的，到现在快一年了。突然前领导给我打电话，说一起聚聚，一同吃饭的还有当时我们小组的主管。我感觉很奇怪，可能什么事？

17 小时前

OSC开源社区 · 🧠这大概是2026年最贴心的AI桌面硬件

昨天

程序员的那些事 · 求锤得锤！叫嚣“大不了进去”诋毁袁隆平科研成果的反智网红已被刑拘

昨天

码农翻身 · 他写的软件支撑着整个互联网，如今却因为 AI 被骂惨了 !

昨天

每日经济新闻 · “没错，这就是商战”！多家头部大牌互掐，有品牌报警了……

2 年前

深圳教师招聘帮 · 深圳市华龙学校诚聘初中教师公告【龙岗教师招聘】

1 年前

青年报 · 同比增长5%！

1 年前

泛家居圈 · 从流量荒漠到智能绿洲：三维家AI赢销大会定义家居营销新纪元

10 月前

参谋长说车车友俱乐部 · 订单数据，莫再相信。

9 月前

关于移动版 · TodayRss海外 · RSS之家 · 卧龙AI搜索

今天看啥 - 公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

© 2025 ~ 沪ICP备11025650号