ICCV2025 | One image is all you need，多模态指令数据合成，你只管...

机器之心 · 公众号 · AI · 2025-07-18 11:14

主要观点总结

本文主要介绍了一种新型多模态指令数据合成方法Oasis，该方法无需用户提供任何prompt，仅以图片作为输入，即可完成指令合成、质量控制和回复生成。文章介绍了Oasis的方法流程、数据特性、实验结果和开源代码库MM-INF。Oasis能有效提高多模态大语言模型的泛化能力，并在多个基准测试上实现性能提升。该研究还开源了一个数据合成的codebase MM-INF，欢迎大家试用。

关键观点总结

关键观点1: Oasis是一种新型多模态指令数据合成方法，只需用户提供图片即可完成指令合成。

Oasis的特点是不需要人工设计和复杂的合成提示词，而是利用模型的自回归特性，基于输入的图片生成多样化的指令。研究者深入分析了高质量指令应具备的属性，并设计了筛选标准用于自动过滤生成指令中的低质量数据。

关键观点2: Oasis数据特性丰富，包括指令和回复的长度、语言类型、动名词组合等。

Oasis合成的数据覆盖广泛语种，包含小语种，且动词名词组合表达自然，对象多样性显著。

关键观点3: Oasis实验结果显著，作为增量数据引入时，较基线实现全面且显著的性能提升。

实验结果表明Oasis在增强多模态大语言模型泛化能力上的有效性，且数据Scaling效果良好，数据量增加时，模型性能稳定提升。

关键观点4: 研究开源了MM-INF代码库，提供数据合成的codebase。

该代码库包含了Oasis的实现以及一些常用的多模态数据合成链路，方便使用者试用并提供反馈。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

AI前线 · GPT-5发布前，Anthropic对OpenAI封锁API；特斯拉被曝拖欠账款致两小企破产；人均在职7个月？字节回应｜AI周报

7 小时前

宝玉xp · //@明风:4.5不是失败的模型，只是作为非推理的基座模型，它的-20250802114530

昨天

爱可可-爱生活 · 高效阅读论文的 Obsidian 标签布局实战指南：• 左上角设-20250802073327

昨天

新机器视觉 · 3D 光学测量技术

2 天前

数字生命卡兹克 · 还是有蛮多人问我最常用的一些AI产品是啥。8月第1天，想了想，干脆发个合集得了（无任何广）。这些产品，几乎都是我每天都在用的东西，对，几乎每天。坦诚的讲，我用的大部分都是海外版的产品，因为....

2 天前

TMT法律论坛 · 广州首创高精地图审图平台

11 月前

上海产业政策服务 · 申报｜2024年虹口区文化创意产业专项扶持申报工作的通知

11 月前

淘梦 · 2024北纬30°短片周“金螺”短片单元入围名单

10 月前

新华社 · 29毫米的恐龙蛋！你见过吗？

9 月前