今天看啥  ›  专栏  ›  arXiv每日学术速递

X-SAM:从「分割一切」到「任意分割」:统一图像分割多模态大模型,在20+个图像分割数据集上均达S...

arXiv每日学术速递  · 公众号  · 科技媒体  · 2025-08-20 09:40
    

主要观点总结

本文介绍了由中山大学、鹏城实验室和美团联合完成的一项研究,针对Segment Anything Model (SAM)和多模态大语言模型(MLLMs)的局限性,提出了一个统一的图像分割多模态大模型X-SAM。X-SAM能够处理多样化的图像分割任务,并引入了视觉定位分割(VGS)新任务。研究团队采用了统一训练策略,并在广泛的图像分割基准测试中验证了X-SAM的优越性。文章还介绍了X-SAM的方法设计、架构设计和训练策略,并展示了其在关键任务上的性能指标。最后,文章展望了未来研究方向,包括在视频领域的扩展。

关键观点总结

关键观点1: 研究背景与动机

SAM在密集分割掩码生成方面表现卓越,但局限于视觉提示的单一输入模式,在广泛图像分割任务中的适用性受限。而MLLMs在图像描述、视觉问答等任务中表现出色,但无法直接处理像素级视觉任务。因此,研究团队提出了X-SAM,一个统一的图像分割多模态大模型,将分割范式从「分割万物」扩展到「任意分割」。

关键观点2: X-SAM的主要设计

X-SAM引入了统一框架,使MLLMs具备高级像素级感知理解能力。它支持多样化数据源的有效训练,采用统一训练策略,支持跨数据集联合训练。X-SAM设计了通用输入格式和统一输出表示,包括文本查询输入、视觉查询输入和统一输出表示。

关键观点3: X-SAM的架构优势

X-SAM采用端到端的统一分割MLLM架构,包含双编码器设计、双映射器架构、分割连接器和统一分割解码器。其中,双编码器设计包括图像编码器和分割编码器,双映射器架构为增强LLM的图像理解能力而设计,分割连接器满足图像分割任务对细粒度多尺度特征的需求。

关键观点4: X-SAM的训练策略

X-SAM采用三阶段渐进式训练策略来优化多样化图像分割任务的性能,包括分割器微调、对齐预训练和混合微调。同时,针对训练数据集规模差异,X-SAM采用数据集平衡重采样策略。

关键观点5: X-SAM的实验结果

X-SAM在超过20个分割数据集上进行了全面评估,涵盖7种不同的图像分割任务,实现了全任务最优性能。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址: 访问原文地址 (快捷配置)
总结与预览地址:访问文章预览/总结
文章地址: 访问文章快照