专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

机器之心 · 公众号 · AI · 2025-07-27 23:54

主要观点总结

本文主要介绍了华为香港研究所小艺团队在大型推理模型后训练方面的研究成果。针对强化学习（RL）在大型模型后训练中的应用，团队推出了GHPO算法框架，实现了在线强化学习与模仿学习的融合。该框架能够自适应地进行切换，提升了模型在推理任务上的泛化能力，并且在多个数学推理Benchmark上实现了性能提升。文章还介绍了GHPO算法框架的创新方案、目标函数、实验设计及案例展示。

关键观点总结

关键观点1: 刘子儒和龚成的研究背景及合作成果

刘子儒博士毕业于香港城市大学数据科学专业，目前在华为香港研究所小艺团队负责RLVR算法与扩散语言模型方向的研究。龚成在香港城市大学攻读博士学位期间，在相同团队进行实习，负责RLVR算法方向的研究。团队推出了GHPO算法框架，解决了强化学习在大型模型后训练中的一些问题。

关键观点2: 强化学习（RL）在大型推理模型后训练的应用与挑战

目前以Group Relative Policy Optimization (GRPO)为代表的RLVR方法面临训练数据难度与模型能力之间的鸿沟和基于On-policy强化学习算法的样本效率低下等挑战。

关键观点3: GHPO算法框架的介绍与优势

GHPO框架实现了在线强化学习与模仿学习的融合，能够自适应切换，提升了模型在推理任务上的泛化能力。该框架通过难度感知与动态引导模块设计，缓解了RLVR方法的奖励稀疏现象，在多个数学推理Benchmark上实现了性能提升。

关键观点4: GHPO算法框架的方法论及核心模块

GHPO算法框架由自动化难度检测和自适应提示切换两个核心模块组成。通过评估当前问题的内在难度，决定学习过程；通过动态调整提示比例，实现自适应的优化。

关键观点5: GHPO算法框架的实验设计与表现

实验设计包括多种RLVR算法的实现，如GRPO、DeepScaleR的课程学习等，验证了GHPO算法在多个主流数学Benchmark上的表现。结果表明GHPO算法相较于GRPO可以实现平均4.5%的性能提升，同时有着更加稳定的梯度更新。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

AI前线 · GPT-5发布前，Anthropic对OpenAI封锁API；特斯拉被曝拖欠账款致两小企破产；人均在职7个月？字节回应｜AI周报

6 小时前

新智元 · Hinton预言成真，美国大学生掀起本科辍学潮！月入万刀修马桶，不怕AI裁员

昨天

黄建同学 · 教程：Tiny LLM - LLM Serving in a W-20250802141348

昨天

爱可可-爱生活 · Anthropic 限制 Claude Max 使用时长，引发自-20250802094616

昨天

机器之心 · 刚刚，谷歌「IMO金牌」模型上线Gemini，数学家第一时间证明猜想

昨天

IDO老徐 · 低调点，沉下心，

1 年前

生信人 · 张泽民团队再添单细胞整合分析高分文章

11 月前

GROW思睿集团 · 最新日程 | 跟洪灝一起去日本，探寻日本投资潜力和商业机遇

9 月前

国际科学 · 研究建议：尝试这样吃饭，只需3个月，就能让你逆转衰老！

6 月前

平凡日子的记录簿 · 我还欠116万。。。10年后，退休了，还欠72万。 -20250315133636

4 月前