专栏名称: 青稞AI

青年AI研究员idea加油站，AI开发者的新能源充电桩。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

动态微调 DFT：从强化学习的视角改进监督微调 SFT

青稞AI · 公众号 · AI · 2025-09-04 00:00

主要观点总结

本文主要介绍了LLM训练范式中强化学习与监督学习的区别和联系，并详细描述了动态微调（DFT）的原理及其在LLM训练中的应用效果。

关键观点总结

关键观点1: LLM训练通常包含三个阶段：大规模无监督预训练、基于SFT的微调、基于RL的微调。

第一阶段主要学习语言规律，但难以保证模型输出的准确性与质量；第二阶段利用人类专家标注的数据对LLM进行微调，提高其指令遵循能力，但受限于标注数据的覆盖范围和标注风格；第三阶段则利用RL方法进一步微调LLM，提升其泛化能力与任务适应性。

关键观点2: SFT与基于策略的RL在优化目标上的联系

可以将LLM的文本生成过程视作一个RL问题，从而建立SFT与基于策略的RL的联系。在此基础上，研究者们提出了多种改进方法，本文重点介绍了DFT。

关键观点3: DFT的原理

DFT通过引入动态矫正机制来缓解SFT梯度中过度关注低概率样本的问题。它通过引入原始权重的反比作为梯度权重，中和重要性采样权重，避免低概率样本梯度的权重被过度放大。实验表明，DFT有效提高了模型的泛化能力。

关键观点4: DFT的实验结果

实验结果表明，DFT在不同任务、模型架构、规模和数据量下均超越了标准SFT。特别是在复杂数学推理任务上，DFT展现出更强的鲁棒性，证明了其作为微调方法的潜力。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

AI产品阿颖 · 深圳这几场 AI 分享，我自己也很想听

13 小时前

爱可可-爱生活 · 【别轻易判定AI增长见顶，S型曲线从不是终点】快速阅读：不要因为-20260516080859

昨天

爱可可-爱生活 · 晚安～ #晚安# -20260515222705

2 天前

人工智能产业链union · 【报告】清华大学：GEO（生成式引擎优化）研究报告（附PDF下载）

2 天前

AI前线 · Hermes团队改写预训练：算力成本降六成，DeepSeek之后提效新路径

2 天前

陈果George · 企业服务价值曲线｜为啥有些公司人天能卖 3 万元，有些只能卖 3 千

1 年前

科技美学 · 售价20.99万元起，极越07正式上市

1 年前

春城晚报 · 超标290倍！知名餐饮品牌被曝光！网友天塌了：这是把屎放里面了？

1 年前

物流指闻 · 【把大象发顺丰，总共分几步】

1 年前

丁香妈妈 · 让娃很会拉屎的食物排行榜，香蕉居然没上榜，火龙果排在最后

1 年前