专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
今天看啥  ›  专栏  ›  机器之心

多模态后训练反常识:长思维链SFT和RL的协同困境

机器之心  · 公众号  · AI  · 2025-08-02 08:55
    

主要观点总结

本文主要探讨了长思维链监督微调(Long-CoT SFT)与强化学习(RL)在多模态视觉语言模型(VLM)中的协同问题。研究发现,这对组合在实现协同增益上遇到困难,甚至可能互相拖累。文章介绍了研究的关键见解、方法、数据集合和模型地址,并详细阐述了长思维链SFT和强化学习RL各自的优势和短板,以及尝试过的五种组合策略的结果。还介绍了实验中的其他发现,如推理轨迹质量的重要性、KL正则化项的作用以及简单题的重要性。最后,文章提出了未来研究方向,包括自适应推理、构建模型亲和的训练数据和分层评估体系。

关键观点总结

关键观点1: 长思维链监督微调(Long-CoT SFT)与强化学习(RL)在多模态视觉语言模型(VLM)中的协同困境。

虽然长思维链SFT可以提升模型解决难题的准确率,但在简单题目上可能表现更差,导致冗余度增加。而强化学习RL则能够整体提升模型性能,实现较为稳定的提升,但在解决复杂逻辑链的难题上可能不如长思维链SFT。五种组合策略试图结合两者的优势,但均未实现理想效果。

关键观点2: 实验方法和数据集。

为了探索各种后训练技术如何影响不同类型问题性能,研究者引入了难度分类方法,并构建了难度层级细化后的多模态推理榜单数据集。此外,还提供了数据模型和地址。

关键观点3: 实验中的其他发现。

实验发现推理轨迹的质量比数据规模和模态匹配更重要。KL正则化项有助于保持RL的长稳训练。简单题是性能压舱石,即便归一化奖励为零,也要将其纳入RL训练数据。

关键观点4: 未来研究方向。

文章提出了自适应推理、构建模型亲和的训练数据和分层评估体系等未来研究方向,旨在让模型学会见题下菜碟。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照