专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
今天看啥  ›  专栏  ›  机器之心

首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练

机器之心  · 公众号  · AI  · 2025-07-27 23:54
    

主要观点总结

本文主要介绍了华为香港研究所小艺团队在大型推理模型后训练方面的研究成果。针对强化学习(RL)在大型模型后训练中的应用,团队推出了GHPO算法框架,实现了在线强化学习与模仿学习的融合。该框架能够自适应地进行切换,提升了模型在推理任务上的泛化能力,并且在多个数学推理Benchmark上实现了性能提升。文章还介绍了GHPO算法框架的创新方案、目标函数、实验设计及案例展示。

关键观点总结

关键观点1: 刘子儒和龚成的研究背景及合作成果

刘子儒博士毕业于香港城市大学数据科学专业,目前在华为香港研究所小艺团队负责RLVR算法与扩散语言模型方向的研究。龚成在香港城市大学攻读博士学位期间,在相同团队进行实习,负责RLVR算法方向的研究。团队推出了GHPO算法框架,解决了强化学习在大型模型后训练中的一些问题。

关键观点2: 强化学习(RL)在大型推理模型后训练的应用与挑战

目前以Group Relative Policy Optimization (GRPO)为代表的RLVR方法面临训练数据难度与模型能力之间的鸿沟和基于On-policy强化学习算法的样本效率低下等挑战。

关键观点3: GHPO算法框架的介绍与优势

GHPO框架实现了在线强化学习与模仿学习的融合,能够自适应切换,提升了模型在推理任务上的泛化能力。该框架通过难度感知与动态引导模块设计,缓解了RLVR方法的奖励稀疏现象,在多个数学推理Benchmark上实现了性能提升。

关键观点4: GHPO算法框架的方法论及核心模块

GHPO算法框架由自动化难度检测和自适应提示切换两个核心模块组成。通过评估当前问题的内在难度,决定学习过程;通过动态调整提示比例,实现自适应的优化。

关键观点5: GHPO算法框架的实验设计与表现

实验设计包括多种RLVR算法的实现,如GRPO、DeepScaleR的课程学习等,验证了GHPO算法在多个主流数学Benchmark上的表现。结果表明GHPO算法相较于GRPO可以实现平均4.5%的性能提升,同时有着更加稳定的梯度更新。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照