专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

RSSHub订阅方法

微博RSS订阅方法

即刻RSS订阅方法

SFT+RL双阶训练突破LLM自我监督！人大DeepCritic实现AI批判自主进化

PaperWeekly · 公众号 · 科研 · 2025-06-07 23:55

主要观点总结

本文旨在解决当前大语言模型（LLM）在数学推理任务上存在的批判能力不足的难题。通过结合监督微调（SFT）和强化学习（RL）两阶段训练，提出一种名为DeepCritic的框架，旨在提升LLM的批判性思维能力。该框架通过生成详细的反馈和准确的判断，可以替代人工反馈工作，实现LLM的自动监督与持续优化。

随着模型智能的不断增强，依赖人工监督的方式也面临着越来越高饿成本和难度。如何以更高效、可扩展的方式对模型进行监督，成为非常重要且亟待解决的关键问题。

现有LLM critics在处理复杂领域如数学推理时，表现仍较为落后。作者发现现有LLM critics在批判时缺乏批判性思维，常常只会按照原始推理步骤中的逻辑进行简单的重复验证，而非以质疑的角度进行批判和深入分析。

作者提出了结合监督微调（SFT）和强化学习（RL）的两阶段训练方法来提升LLM的批判能力。在第一阶段，使用监督微调教会LLM深度批判的行为和格式；在第二阶段，采用强化学习进一步激发模型的潜力，使其在评判复杂推理过程中表现得更加精准和灵活。

实验结果表明，DeepCritic框架在多个数学评估基准上显著超过了当前的LLM critics，包括GPT-4o等模型。此外，DeepCritic模型还能通过扩展生成模型在测试时的计算，提升生成模型的效果。

作者希望通过将批判框架拓展至更多任务场景，如代码、开放领域等，探索其通用性与跨领域潜力。此外，作者还鼓励更多个人或团队分享优质内容，让知识真正流动起来。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博