社区供稿｜智源研究院发布千万级多模态指令数据集 Infinity-MM: 驱动开源模型迈向 SOTA...

Hugging Face · 公众号 · 大数据科技自媒体 · 2024-10-31 10:30

主要观点总结

本文主要介绍了智源研究院发布并开源的千万级多模态指令数据集Infinity-MM，以及基于该数据集训练的Aquila-VL-2B模型。数据集通过质量过滤和去重确保数据的高质量和多样性，提出了一种基于开源模型和标签体系的合成数据生成方法。Aquila-VL-2B模型在多个评估指标上表现突出，尤其在视觉感知和数学推理等任务上达到最新SOTA结果。此外，文章还介绍了模型训练效率提升、InfinityMM构建流程、合成数据方法以及实验结果等内容。

关键观点总结

关键观点1: 智源研究院发布开源千万级多模态指令数据集Infinity-MM，包含数千万个样本，数据规模达4300万条。

数据集通过质量过滤和去重保证数据高质量和多样性。提出基于开源模型和标签体系的合成数据生成方法，有效生成高质量指令数据并扩大数据集规模。

关键观点2: 基于Infinity-MM成功训练了Aquila-VL-2B模型，在同等规模模型中取得最先进的性能。

Aquila-VL-2B模型在多种视觉benchmark测试上表现优异，达到最新SOTA结果。模型在视觉感知、文档理解、数学推理等多模态任务上具有强大处理能力。

关键观点3: 模型训练效率提升，采用LLaVA-OneVision架构和FlagScale框架进行适配训练。

训练效率是原版基于DeepSpeed的训练代码的1.7倍。

关键观点4: 介绍了InfinityMM的构建流程、合成数据方法以及实验结果。

包括开源数据收集整理、合成数据方法、数据规模扩展实验、视频处理评测等内容。

关键观点5: 未来工作方向是完善数据合成方法、增加文档处理类数据规模、基于Infinity-MM训练更多不同规模大小的模型。

通过不断优化和改进，旨在进一步提升模型性能和处理能力。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博