专栏名称: DASOU
一名算法工程师,分享工作日常和AI干货,专注深度学习。
目录
相关文章推荐
今天看啥  ›  专栏  ›  DASOU

强化学习算法梳理:从 PPO 到 GRPO 再到 DAPO

DASOU  · 公众号  ·  · 2025-05-04 21:36
    

主要观点总结

本文主要介绍了强化学习在大型语言模型训练中的应用,包括Policy Gradient、PPO算法和基于奖励模型优化的流程。通过介绍On-Policy和Off-Policy的概念,引出PPO算法的训练过程。文章还详细解释了优势函数的计算,引入了Generalized Advantage Estimation(GAE)的概念。最后介绍了Proximal Policy Optimization(PPO)算法的目标函数和训练过程,以及一些优化改进的方法,如DPO、GRPO和DAPO等。

关键观点总结

关键观点1: 强化学习基于奖励最大化假设,所有的算法都是建立在得到一个最大的期望奖励的基础上。

强化学习包含两个主要部分:策略网络和奖励模型。策略网络负责生成动作,而奖励模型则评估动作或状态的价值。

关键观点2: PPO算法是Policy Gradient的一个优化版本,通过使用优势函数和GAE来减少方差,使用clip函数防止策略更新过大。


关键观点3: DPO(Direct Preference Optimization)绕过了训练奖励模型的过程,直接用策略网络代替奖励模型进行训练,从而达到同样的目的。


关键观点4: GRPO对优势函数进行了改进,引入了组间相对优势估计,从而不需要价值模型。


关键观点5: DAPO对GRPO进行了进一步优化,主要包括动态采样、token级别的损失计算、对过长的回答的线性奖励以及对KL散度约束的去除。




免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照