X-SAM：从「分割一切」到「任意分割」：统一图像分割多模态大模型，在20+个图像分割数据集上均达S...

arXiv每日学术速递 · 公众号 · 科技媒体 · 2025-08-20 09:40

主要观点总结

本文介绍了由中山大学、鹏城实验室和美团联合完成的一项研究，针对Segment Anything Model (SAM)和多模态大语言模型（MLLMs）的局限性，提出了一个统一的图像分割多模态大模型X-SAM。X-SAM能够处理多样化的图像分割任务，并引入了视觉定位分割（VGS）新任务。研究团队采用了统一训练策略，并在广泛的图像分割基准测试中验证了X-SAM的优越性。文章还介绍了X-SAM的方法设计、架构设计和训练策略，并展示了其在关键任务上的性能指标。最后，文章展望了未来研究方向，包括在视频领域的扩展。

关键观点总结

关键观点1: 研究背景与动机

SAM在密集分割掩码生成方面表现卓越，但局限于视觉提示的单一输入模式，在广泛图像分割任务中的适用性受限。而MLLMs在图像描述、视觉问答等任务中表现出色，但无法直接处理像素级视觉任务。因此，研究团队提出了X-SAM，一个统一的图像分割多模态大模型，将分割范式从「分割万物」扩展到「任意分割」。

关键观点2: X-SAM的主要设计

X-SAM引入了统一框架，使MLLMs具备高级像素级感知理解能力。它支持多样化数据源的有效训练，采用统一训练策略，支持跨数据集联合训练。X-SAM设计了通用输入格式和统一输出表示，包括文本查询输入、视觉查询输入和统一输出表示。

关键观点3: X-SAM的架构优势

X-SAM采用端到端的统一分割MLLM架构，包含双编码器设计、双映射器架构、分割连接器和统一分割解码器。其中，双编码器设计包括图像编码器和分割编码器，双映射器架构为增强LLM的图像理解能力而设计，分割连接器满足图像分割任务对细粒度多尺度特征的需求。

关键观点4: X-SAM的训练策略

X-SAM采用三阶段渐进式训练策略来优化多样化图像分割任务的性能，包括分割器微调、对齐预训练和混合微调。同时，针对训练数据集规模差异，X-SAM采用数据集平衡重采样策略。

关键观点5: X-SAM的实验结果

X-SAM在超过20个分割数据集上进行了全面评估，涵盖7种不同的图像分割任务，实现了全任务最优性能。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址 (快捷配置)
总结与预览地址：访问文章预览/总结
文章地址：访问文章快照

分享到微博