夸克、浙大开源OmniAvatar，一张图+一段音，就能生成长视频

机器之心 · 公众号 · AI · 2025-07-25 12:29

主要观点总结

近期，夸克技术团队和浙江大学联合开源了OmniAvatar，这是一个音频驱动的全身视频生成模型。该模型只需输入一张图片和一段音频，即可生成相应的视频，并显著提升了画面中人物的唇形同步细节和全身动作的流畅性。此外，还可通过提示词精准控制人物姿势、情绪、场景等要素。OmniAvatar在多个场景下展示了其领先的能力，并对长视频生成进行了优化。该模型利用LoRA方法进行微调，有效地引入了音频特征，并采用了像素级多层次音频嵌入策略。未来，团队还计划在复杂指令处理能力、多角色交互等方面进一步探索。

关键观点总结

关键观点1: OmniAvatar是一个创新的音频驱动全身视频生成模型，只需输入图片和音频即可生成视频。

该模型显著提升了画面中人物的唇形同步细节和全身动作的流畅性。

关键观点2: OmniAvatar可通过提示词精准控制人物姿势、情绪、场景等要素。

该模型在多种场景下展示了其领先的能力，如播客、唱歌、交互、动态背景等。

关键观点3: OmniAvatar针对长视频生成进行了优化，能够更好地保持人物一致性和时间连贯性。

其采用了像素级多层次音频嵌入策略，确保音频特征在视频中的均匀分布。

关键观点4: OmniAvatar利用LoRA方法进行微调，平衡微调策略兼顾了视频质量和细节。

该模型还采用了参考图嵌入和重叠帧策略，以实现人物的身份保留和时间一致性。

关键观点5: OmniAvatar是团队在多模态视频生成上的初步尝试，未来还有更多探索空间。

团队计划在未来探索复杂指令处理能力、多角色交互等方面的应用。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

爱可可-爱生活 · 本文通过严谨的几何学分析，颠覆性地证明了神经网络强化学习的内在复-20250803060256

9 小时前

爱可可-爱生活 · [CL] On The Role of Pretrained L-20250803062258

9 小时前

宝玉xp · 来自网友对神秘模型 Horizon Alpha (据传是 Ope-20250801101916

2 天前

爱可可-爱生活 · [LG]《AlphaEarth Foundations: An -20250801060947

2 天前

爱可可-爱生活 · [LG]《The Incomplete Bridge: How -20250801061734

2 天前

中国教育报 · 今天，超10省份公布高考成绩，最新分数线汇总→

1 年前

先知书店店长荐书 · 《暗淡蓝点》：霍金佩服、阿西莫夫推崇的“科学先生”的科普神作

6 月前

杭州网 · 突然崩了！很多人以为手机坏了！官方紧急回应

4 月前

北京海淀法院 · 海淀法院运用“数智枫桥”新经验当庭调解涉“三体”商标维权纠纷案

3 月前