专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  机器之心

AI「视觉图灵」时代来了!字节OmniHuman,一张图配上音频,就能直接生成视频

机器之心  · 公众号  · AI  · 2025-02-05 16:19
    

主要观点总结

机器之心发布:字节跳动数字人团队推出了新的多模态数字人方案OmniHuman,能够对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成。该方案采用Omni-Conditions Training混合多模态训练策略,生成的人物视频效果生动,具有非常高的自然度,对肖像、半身以及全身等不同人物占比、不同图片尺寸的输入都可通过单个模型支持。相较于现有技术,OmniHuman显著优于现有方法,支持从弱信号(尤其是音频)生成生动的人类视频,并已在即梦AI中落地。

关键观点总结

关键观点1: OmniHuman方案的特点

采用Omni-Conditions Training混合多模态训练策略;生成的人物视频效果生动,自然度高;支持任意尺寸和人物占比的图片输入;对肖像、半身以及全身等不同人物占比、不同图片尺寸的输入都可通过单个模型支持。

关键观点2: OmniHuman的技术优势

显著优于现有方法,能够从弱信号(尤其是音频)生成生动的人类视频;解决了高质量数据稀缺的问题,从大规模数据训练中受益;学习自然的运动模式。

关键观点3: 应用与落地

OmniHuman已在即梦AI中落地,相关技术未来可应用于抖音、剪映、头条等字节跳动的产品线,同时也可为外部ToB合作伙伴提供智能创作能力与行业解决方案。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照