专栏名称: 阿里云

阿里云计算

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

重磅开源！通义万相最新模型来了

阿里云 · 公众号 · AI媒体 · 2025-08-26 21:48

主要观点总结

通义万相最新开源了音频驱动的视频模型Wan2.2-S2V，该模型结合文本引导的全局运动控制和音频驱动的细粒度局部运动，可以实现复杂场景的音频驱动视频生成。使用一张图片和一段音频，即可生成电影级的数字人视频。该模型具有以下关键点：生成视频时长可达分钟级，大幅提升数字人直播、影视制作、AI教育等行业的视频创作效率；支持多种类型图片，包括真人、卡通、动物、数字人等；引入AdaIN和CrossAttention两种控制机制，实现更准确更动态的音频控制效果；通过层次化帧压缩技术，实现了稳定的长视频生成效果；还支持文本控制，可精准调整视频画面，实现更丰富的视频内容。

关键观点总结

关键观点1: 模型功能强大，生成视频自然度高

使用一张图片和一段音频就能生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频，可见模型的功能强大和自然度高。

关键观点2: 模型生成视频时长可达分钟级

模型能够生成分钟级的视频，这将大幅提升数字人直播、影视制作、AI教育等行业的视频创作效率。

关键观点3: 模型支持多种类型图片和场景

模型可驱动真人、卡通、动物、数字人等多种类型图片，并支持肖像、半身以及全身等任意画幅，适应性广泛。

关键观点4: 模型采用先进控制机制

引入AdaIN和CrossAttention两种控制机制，实现更准确更动态的音频控制效果，使生成的视频更加生动真实。

关键观点5: 模型支持文本控制

模型还支持文本控制，用户可以通过输入Prompt来精准调整视频画面，实现更丰富的视频内容。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

华尔街见闻-资讯-硬AI · 强劲财报叠加美伊僵局，苹果盘前上涨3%，原油继续攀升、黄金跌1%，日元持续走高

昨天

腾讯混元 · 腾讯混元发布CL-Bench Life，精准衡量模型在现实生活中的 “上下文学习” 能力

昨天

华尔街见闻-资讯-硬AI · 西部数据第三财季营收增长45%，毛利率首破50%，AI存储需求持续驱动增长

昨天

华尔街见闻-资讯-硬AI · Sandisk第三财季营收59.5亿美元，分析师预期47.2亿美元

昨天

华尔街见闻-资讯-硬AI · Anthropic拟扩大Mythos模型访问权限，美国政府反对

2 天前

龚文祥 · //@老许讲数字化:老龙分享的很到位AI+SaaS驱动的独立站，-20240617235507

1 年前

宁波网警 · 骗子盯上电话手表！12岁男孩被骗3万余元！

1 年前

长江日报 · 境外旅客购物离境退税，湖北公布首批商店名单

11 月前

白云仙院 · 古训：言慢者贵，性柔者富，德厚者旺！

11 月前