专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
今天看啥  ›  专栏  ›  机器之心

夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频

机器之心  · 公众号  · AI  · 2025-07-25 12:29
    

主要观点总结

近期,夸克技术团队和浙江大学联合开源了OmniAvatar,这是一个音频驱动的全身视频生成模型。该模型只需输入一张图片和一段音频,即可生成相应的视频,并显著提升了画面中人物的唇形同步细节和全身动作的流畅性。此外,还可通过提示词精准控制人物姿势、情绪、场景等要素。OmniAvatar在多个场景下展示了其领先的能力,并对长视频生成进行了优化。该模型利用LoRA方法进行微调,有效地引入了音频特征,并采用了像素级多层次音频嵌入策略。未来,团队还计划在复杂指令处理能力、多角色交互等方面进一步探索。

关键观点总结

关键观点1: OmniAvatar是一个创新的音频驱动全身视频生成模型,只需输入图片和音频即可生成视频。

该模型显著提升了画面中人物的唇形同步细节和全身动作的流畅性。

关键观点2: OmniAvatar可通过提示词精准控制人物姿势、情绪、场景等要素。

该模型在多种场景下展示了其领先的能力,如播客、唱歌、交互、动态背景等。

关键观点3: OmniAvatar针对长视频生成进行了优化,能够更好地保持人物一致性和时间连贯性。

其采用了像素级多层次音频嵌入策略,确保音频特征在视频中的均匀分布。

关键观点4: OmniAvatar利用LoRA方法进行微调,平衡微调策略兼顾了视频质量和细节。

该模型还采用了参考图嵌入和重叠帧策略,以实现人物的身份保留和时间一致性。

关键观点5: OmniAvatar是团队在多模态视频生成上的初步尝试,未来还有更多探索空间。

团队计划在未来探索复杂指令处理能力、多角色交互等方面的应用。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照