强化学习算法梳理：从 PPO 到 GRPO 再到 DAPO

DASOU · 公众号 · · 2025-05-04 21:36

主要观点总结

本文主要介绍了强化学习在大型语言模型训练中的应用，包括Policy Gradient、PPO算法和基于奖励模型优化的流程。通过介绍On-Policy和Off-Policy的概念，引出PPO算法的训练过程。文章还详细解释了优势函数的计算，引入了Generalized Advantage Estimation（GAE）的概念。最后介绍了Proximal Policy Optimization（PPO）算法的目标函数和训练过程，以及一些优化改进的方法，如DPO、GRPO和DAPO等。

关键观点总结

关键观点1: 强化学习基于奖励最大化假设，所有的算法都是建立在得到一个最大的期望奖励的基础上。

强化学习包含两个主要部分：策略网络和奖励模型。策略网络负责生成动作，而奖励模型则评估动作或状态的价值。

关键观点2: PPO算法是Policy Gradient的一个优化版本，通过使用优势函数和GAE来减少方差，使用clip函数防止策略更新过大。

关键观点3: DPO（Direct Preference Optimization）绕过了训练奖励模型的过程，直接用策略网络代替奖励模型进行训练，从而达到同样的目的。

关键观点4: GRPO对优势函数进行了改进，引入了组间相对优势估计，从而不需要价值模型。

关键观点5: DAPO对GRPO进行了进一步优化，主要包括动态采样、token级别的损失计算、对过长的回答的线性奖励以及对KL散度约束的去除。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博