专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

AI「视觉图灵」时代来了！字节OmniHuman，一张图配上音频，就能直接生成视频

机器之心 · 公众号 · AI · 2025-02-05 16:19

主要观点总结

机器之心发布：字节跳动数字人团队推出了新的多模态数字人方案OmniHuman，能够对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成。该方案采用Omni-Conditions Training混合多模态训练策略，生成的人物视频效果生动，具有非常高的自然度，对肖像、半身以及全身等不同人物占比、不同图片尺寸的输入都可通过单个模型支持。相较于现有技术，OmniHuman显著优于现有方法，支持从弱信号（尤其是音频）生成生动的人类视频，并已在即梦AI中落地。

关键观点总结

关键观点1: OmniHuman方案的特点

采用Omni-Conditions Training混合多模态训练策略；生成的人物视频效果生动，自然度高；支持任意尺寸和人物占比的图片输入；对肖像、半身以及全身等不同人物占比、不同图片尺寸的输入都可通过单个模型支持。

关键观点2: OmniHuman的技术优势

显著优于现有方法，能够从弱信号（尤其是音频）生成生动的人类视频；解决了高质量数据稀缺的问题，从大规模数据训练中受益；学习自然的运动模式。

关键观点3: 应用与落地

OmniHuman已在即梦AI中落地，相关技术未来可应用于抖音、剪映、头条等字节跳动的产品线，同时也可为外部ToB合作伙伴提供智能创作能力与行业解决方案。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

AI思想会 · Anthropic让AI先读员工手册再上岗：失控率从54%降到7%

昨天

AI产品黄叔 · 五一我没开电脑，但我的 Agent 团队没放假 | 如何用Hermes Agent移动办公

昨天

机器之心 · ICLR 2026 | 救命，手机Live Photo重选封面终于不糊了

昨天

宝玉xp · 回复@哪儿__:→_→//@哪儿__:图片评论评论配图-20260506005106

2 天前

宝玉xp · Google 为自家开源模型 Gemma 4 发布了 MTP d-20260506013744

昨天

媒哥媒体招聘 · 哇唧唧哇招聘！

1 年前

互联网AI早读课 · 一个人1年净赚100+万，第一批在小红书卖穿戴甲的商家发了

1 年前

北极星电力网 · 十部门：原则上不再新增自备燃煤机组

1 年前

学术志 · 小心！！！这10个信号预示着老师职业见顶

8 月前

iNature · Sci Adv丨成都中医药大学章津铭等团队研究发现微环境驱动的可转化自组装纳米平台可实现时空重塑，用于类风湿性关节炎治疗

8 月前