谷歌最强AI，被港科大开源超了？让海外创作者喊出「King Bomb」的P图大杀器来了

机器之心 · 公众号 · AI · 2025-10-23 13:07

主要观点总结

本文介绍了贾佳亚团队最新开源的DreamOmni2系统，它在多模态图像编辑与生成领域取得了重要突破。DreamOmni2能够基于指令进行多模态编辑和生成，处理包括抽象概念在内的复杂任务，并提供了更高的灵活性和可玩性。本文还详细描述了DreamOmni2的数据构建、框架设计和训练优化等方面的技术创新，以及团队在多模态领域的其他研究成果。

关键观点总结

关键观点1: DreamOmni2系统简介

DreamOmni2是一个多模态图像编辑与生成系统，能够基于指令进行多模态编辑和生成，处理包括抽象概念在内的复杂任务。它提供了更高的灵活性和可玩性，是图像创作的新工具。

关键观点2: 数据构建创新

贾佳亚团队独创了三阶段式数据构建范式，通过特征混合、真实数据与模型自生数据的结合，打通了从具体物体到抽象概念、从编辑到生成的全流程数据构建链路，降低了数据获取成本。

关键观点3: 框架设计优化

DreamOmni2的框架设计适应了多参考图输入的需求。通过添加索引编码和位置编码的改进，有效区分了不同参考图像，缓解了参考图像之间的像素混淆现象。

关键观点4: 训练优化

贾佳亚团队引入了VLM和生成模型联合训练的机制，让模型更好地理解用户意图。同时，使用LoRA方法分别训练编辑与生成模块，使模型能够执行多模态指令编辑与生成任务。

关键观点5: 团队其他研究成果

贾佳亚团队在多模态领域持续深耕，陆续推出多项代表性研究，如Mini-Gemini、ControlNeXt和DreamOmni等。这些研究逐步构建起覆盖感知、理解与生成的全链路多模态技术栈。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博