HumanOmniV2 比你还懂“社交潜台词”！

通义大模型 · 公众号 · 大模型 · 2025-07-12 00:55

主要观点总结

文章介绍了如何解决AI在多模态推理上的认知错误问题，通过引入全新模型HumanOmniV2以及一系列的训练策略改进来突破多模态推理瓶颈。包括模型架构的创新、训练策略的深度优化以及全模态推理训练数据集的构建等。同时推出了一个全新的评测基准IntentBench来评估模型在理解人类意图方面的能力。

为了解决AI在多模态推理上的缺陷，推出了一个名为HumanOmniV2的模型。该模型引入了强制性上下文总结机制，确保模型在分析多模态信息时不会遗漏任何关键信息。

HumanOmniV2还采用了一套LLM驱动的多维度奖励机制来引导模型学习过程，包括上下文奖励、格式奖励、准确性奖励和逻辑奖励等。

基于Qwen2.5-Omni-Thinker架构，对GRPO（Group Relative Policy Optimization）方法进行了多项改进，包括引入令牌级损失、移除问题级归一化项以及应用动态KL散度机制等。

构建了一个高质量的全模态推理训练数据集，包含大量图像、视频和音频任务，并附带详细的上下文总结和推理路径标注。

为了更准确地评估模型在理解人类意图方面的能力，推出了一个全新的评测基准IntentBench。该基准包含多个视频和相关问题，要求模型在理解和推理方面具备高度能力。

HumanOmniV2在多个主流全模态基准上进行了系统评估，表现出色。特别是在新构建的IntentBench基准上取得了令人瞩目的成绩。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

大模型之心Tech · DeepSeek获得ACL 2025最佳论文，长文解析来啦～

昨天

AIGC开放社区 · 4K-Agent：可将低分辨率图像提升至4K高清智能体

昨天

暴走漫画 · 雷总问了句“你们自己洗车吗？”，网友们怎么就提前破防了？

1 年前

大宗商品信息中心 · MPOA：马来西亚6月1-20日毛棕榈油产量环比下降6.3%

1 年前

小学数学 · 小学数学常考题型及易错题分析，抓住了比看书都有效

1 年前

上海科技 · 【通知】关于组织申报国家重点研发计划“农业生物重要性状形成与环境适应性基础研究”等重点专项2024年度项目的通知

11 月前

言鼎动作学苑 · 冷҈冷҈冷҈冷҈冷҈ 动作学苑喊你添置新衣服啦！

7 月前