专栏名称: 机器学习研究组订阅

连接人工智能技术人才和产业人才的交流平台

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

机器学习研究组订阅 · 公众号 · AI · 2025-07-11 21:45

主要观点总结

本文介绍了POLAR奖励模型，一种基于对比学习预训练范式的奖励模型，旨在解决AI更懂人类的问题。POLAR采用全新对比学习预训练范式，可以根据参考答案灵活对模型回复给出奖励分数。上海人工智能实验室和复旦大学的研究人员最近提出了一种全新的奖励模型POLAR，并开源了1.8B和7B两个参数规模的版本。POLAR展现出了良好的泛化性和准确性，并且在强化微调RFT实验中持续优于SOTA的开源奖励模型。通过预训练阶段学习策略模型之间的细微区别，POLAR显著增强了实际RL应用时的奖励信号泛化性。

关键观点总结

关键观点1: POLAR奖励模型的核心技术

POLAR采用对比学习预训练范式，通过衡量训练策略与目标策略之间的距离来作为奖励信号，当训练策略越接近目标策略时，给予越高的奖励。

关键观点2: POLAR的优势

POLAR摆脱了对大规模偏好数据的依赖，并且可以大规模无监督扩展。在下游RL效果上，POLAR-7B超越了参数量更大的SOTA奖励模型。在偏好评估和强化微调RFT实验中，POLAR表现出优越的性能和全面性。

关键观点3: POLAR的预训练方法和应用

POLAR的预训练语料完全由自动化合成数据构建，使用对比学习的方式做距离度量。在实际应用中，POLAR在RFT框架下对LLM进行强化学习，展现出了极佳的泛化性。

关键观点4: POLAR的Scaling效应

POLAR展现出了与大语言模型类似的Scaling效应，随着模型参数和计算量的增加，验证集损失呈幂律关系下降，体现了POLAR无监督预训练方法的巨大潜力。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

量子位 · IOI中国队全员金牌夺冠！奥赛打成乒乓，浙江中学生扛起3/4

昨天

黄建同学 · 新的RAG架构——《Graph-R1: Towards Agen-20250802075225

昨天

爱可可-爱生活 · 高效阅读论文的 Obsidian 标签布局实战指南：• 左上角设-20250802073327

昨天

新机器视觉 · 3D 光学测量技术

2 天前

宝玉xp · Trae 招募 Fellow 共建社区责任：- 定期举办 Tra-20250801095921

2 天前

药研 · 免费直播｜新药研发的项目管理与案例分析

1 年前

石林老师 · 教招试讲无非就是两个方面学科知识不出错加表现力你就赢啦!

1 年前

娟仔的生命奇遇记 · 娟在囧途

10 月前

湖南生态环境 · 新春走基层丨县域经济蓬勃发展

6 月前

佰赞咨询 · 深入分析—小米是如何出圈的

5 月前