今天看啥  ›  专栏  ›  Hugging Face

社区供稿|智源研究院发布千万级多模态指令数据集 Infinity-MM: 驱动开源模型迈向 SOTA...

Hugging Face  · 公众号  · 大数据 科技自媒体  · 2024-10-31 10:30
    

主要观点总结

本文主要介绍了智源研究院发布并开源的千万级多模态指令数据集Infinity-MM,以及基于该数据集训练的Aquila-VL-2B模型。数据集通过质量过滤和去重确保数据的高质量和多样性,提出了一种基于开源模型和标签体系的合成数据生成方法。Aquila-VL-2B模型在多个评估指标上表现突出,尤其在视觉感知和数学推理等任务上达到最新SOTA结果。此外,文章还介绍了模型训练效率提升、InfinityMM构建流程、合成数据方法以及实验结果等内容。

关键观点总结

关键观点1: 智源研究院发布开源千万级多模态指令数据集Infinity-MM,包含数千万个样本,数据规模达4300万条。

数据集通过质量过滤和去重保证数据高质量和多样性。提出基于开源模型和标签体系的合成数据生成方法,有效生成高质量指令数据并扩大数据集规模。

关键观点2: 基于Infinity-MM成功训练了Aquila-VL-2B模型,在同等规模模型中取得最先进的性能。

Aquila-VL-2B模型在多种视觉benchmark测试上表现优异,达到最新SOTA结果。模型在视觉感知、文档理解、数学推理等多模态任务上具有强大处理能力。

关键观点3: 模型训练效率提升,采用LLaVA-OneVision架构和FlagScale框架进行适配训练。

训练效率是原版基于DeepSpeed的训练代码的1.7倍。

关键观点4: 介绍了InfinityMM的构建流程、合成数据方法以及实验结果。

包括开源数据收集整理、合成数据方法、数据规模扩展实验、视频处理评测等内容。

关键观点5: 未来工作方向是完善数据合成方法、增加文档处理类数据规模、基于Infinity-MM训练更多不同规模大小的模型。

通过不断优化和改进,旨在进一步提升模型性能和处理能力。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照