今天看啥  ›  专栏  ›  机器之心

奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式

机器之心  · 公众号  · AI  · 2025-07-10 12:26
    

主要观点总结

POLAR是一种新型的奖励模型预训练方法,旨在解决大语言模型后训练阶段的奖励模型设计与训练瓶颈问题。它通过策略判别学习(Policy Discriminative Learning)的方式,找到一种与绝对偏好解耦的、可高效扩展的奖励建模新范式。POLAR在预训练阶段通过对比学习建模策略间的距离,在使用阶段展现出极佳的泛化性,为LLM后训练带来了新的可能。

关键观点总结

关键观点1: POLAR的主要特点

POLAR采用策略判别学习的方式,找到一种与绝对偏好解耦的奖励建模方式,摆脱了对偏好数据人工标注的依赖,具有极强的可扩展潜力。

关键观点2: POLAR的预训练方式

POLAR的预训练完全通过自动化合成数据构建,采用对比学习的方式,让奖励模型学会区分策略分布,而非建模人类的绝对偏好。

关键观点3: POLAR的使用场景

POLAR完美适配强化微调(RFT)框架,基于问题的参考答案对模型输出进行打分,使得候选策略逐步向最优策略偏移。

关键观点4: POLAR的效果评估

POLAR在偏好评估方面展现出优越的性能和全面性,在大多数任务维度上优于SOTA奖励模型。同时,在RFT实验中,POLAR持续优于SOTA的开源奖励模型,显著增强了实际RL应用时的奖励信号泛化性。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照