专栏名称: arXiv每日学术速递
工作日更新学术速递!官网www.arxivdaily.com。
目录
相关文章推荐
今天看啥  ›  专栏  ›  arXiv每日学术速递

EarthInstruct基准搭配InstructSAM框架:解决遥感目标识别难题,多任务性能与效率...

arXiv每日学术速递  · 公众号  ·  · 2025-06-16 11:23
    

主要观点总结

本文介绍了一种新的任务,称为指令导向的目标识别(InstructCDS),以及相应的基准测试——EarthInstruct。针对遥感图像中的目标识别问题,作者提出了一种无需训练的框架,称为InstructSAM。该框架集成了大型视觉语言模型(LVLMs)、SAM2和领域特定的CLIP,以处理指令导向的场景。实验表明,InstructSAM在性能上优于专用Baseline,同时保持近乎恒定的推理时间,具有强大的泛化能力和扩展性。该框架通过解决复杂或隐式的用户任务需求,为更具可扩展性的指令驱动地球观测数据分析铺平了道路。

关键观点总结

关键观点1: 任务介绍

本文提出了一个新的任务——指令导向的目标识别(InstructCDS),涵盖了开集、开放式和开放子类场景。EarthInstruct是遥感领域的InstructCDS基准测试,由两个具有不同空间分辨率和20个类别的标注规则的遥感数据集构成。

关键观点2: 无训练框架的提出

作者提出了一种无需训练的框架——InstructSAM,利用大型视觉语言模型(LVLMs)解释用户指令并估计目标计数,采用SAM2进行Mask Proposal,并结合计数约束的Mask-标签匹配。该框架不需要特定的任务训练或微调,推理时间几乎恒定,无论目标数量如何。

关键观点3: 实验比较

通过实验比较,InstructSAM在性能上优于专用Baseline,同时保持近乎恒定的推理时间。与Qwen2.5-VL相比,InstructSAM显著减少了输出Token的数量和总推理时间。此外,消融实验表明,InstructSAM受益于使用在遥感数据上微调的CLIP模型。

关键观点4: 错误分析和未来展望

错误分析表明,不同的方法存在明显的错误模式。InstructSAM通过结合LVLMs、SAM2和领域特定的CLIP,能够处理指令导向场景,并具有强大的泛化能力和扩展性。作为首个将指令导向检测扩展到更广泛的InstructCDS范式的方案,InstructSAM将受益于遥感基础模型和通用模型的进步。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照