多模态后训练反常识：长思维链SFT和RL的协同困境

机器之心 · 公众号 · AI · 2025-08-02 08:55

主要观点总结

本文主要探讨了长思维链监督微调（Long-CoT SFT）与强化学习（RL）在多模态视觉语言模型（VLM）中的协同问题。研究发现，这对组合在实现协同增益上遇到困难，甚至可能互相拖累。文章介绍了研究的关键见解、方法、数据集合和模型地址，并详细阐述了长思维链SFT和强化学习RL各自的优势和短板，以及尝试过的五种组合策略的结果。还介绍了实验中的其他发现，如推理轨迹质量的重要性、KL正则化项的作用以及简单题的重要性。最后，文章提出了未来研究方向，包括自适应推理、构建模型亲和的训练数据和分层评估体系。

关键观点总结

关键观点1: 长思维链监督微调（Long-CoT SFT）与强化学习（RL）在多模态视觉语言模型（VLM）中的协同困境。

虽然长思维链SFT可以提升模型解决难题的准确率，但在简单题目上可能表现更差，导致冗余度增加。而强化学习RL则能够整体提升模型性能，实现较为稳定的提升，但在解决复杂逻辑链的难题上可能不如长思维链SFT。五种组合策略试图结合两者的优势，但均未实现理想效果。

关键观点2: 实验方法和数据集。

为了探索各种后训练技术如何影响不同类型问题性能，研究者引入了难度分类方法，并构建了难度层级细化后的多模态推理榜单数据集。此外，还提供了数据模型和地址。

关键观点3: 实验中的其他发现。

实验发现推理轨迹的质量比数据规模和模态匹配更重要。KL正则化项有助于保持RL的长稳训练。简单题是性能压舱石，即便归一化奖励为零，也要将其纳入RL训练数据。

关键观点4: 未来研究方向。

文章提出了自适应推理、构建模型亲和的训练数据和分层评估体系等未来研究方向，旨在让模型学会见题下菜碟。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博