Hallo4：让AI肖像“活”起来！新型扩散框架实现高保真音频驱动动画生成！

灵度智能 · 公众号 · AI · 2025-07-05 12:10

主要观点总结

复旦联合百度发布扩散框架Hallo4，用于生成高动态和逼真的肖像动画。该框架实现了准确的唇音同步、自然的面部表情，并能处理各种角色身份和环境场景中快速的语音节奏和突然的上身运动。文章介绍了该框架的关键创新点，包括直接偏好优化和时间运动调制，并提供了实验结果和总结。

复旦联合百度开发的扩散框架Hallo4，用于生成由音频和骨骼运动驱动的高动态和逼真的肖像动画。

框架引入了直接偏好优化和时间运动调制两项关键创新，以应对生成高保真、动态连贯的动画挑战。直接偏好优化利用人类偏好数据集对齐感知指标，实现肖像运动与视频的对齐和表情的自然性。时间运动调制解决时空分辨率不匹配问题，保留高频运动细节的保真度。

实验表明，该框架在唇音同步、表情生动度和身体运动连贯性方面相比基线方法有显著提升，同时在人类偏好指标方面也取得了显著提升。框架实现了准确的唇音同步、自然的面部表情，并能够稳健地处理各种场景中的快速语音节奏和突然的上身运动。

文章鼓励读者关注公众号并加入官方读者交流群，共同交流学习有关AI、深度学习、计算机视觉、AIGC等相关技术。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

机器之心 · 谷歌约战，DeepSeek、Kimi都要上，首届大模型对抗赛明天开战

9 小时前

人工智能产业链union · 【AI加油站】第四十一部：《ChatGPT后训练全景解析：技术演进、核心挑战与未来方向》（附下载）

9 小时前

爱可可-爱生活 · 本文提出了一个开创性的自进化智能体范式MetaAgent，它通过-20250805061655

15 小时前

机器学习研究组订阅 · 兔子蹦迪疯传，5亿观看！全球恐慌：一段AI视频把全人类拉入虚拟现场

2 天前

新机器视觉 · 同样的实验室(如浙大计算机），硕士们进了大厂拿高工资，为什么博士却要挤破头进高校？

2 天前

小学数学 · 小学1-6年级奥数知识点总结（十二类型），家长收藏

7 月前

FM1007福建交通广播 · 福州市仓山区发生火灾

2 月前

黎城老乡俱乐部 · 黎城全面启动！5月11日至8月18日！

2 月前

全国妇联女性之声 · 星空夜话丨父母的终极使命，是发现孩子所长

2 月前