专栏名称: 智东西

智东西－聚焦智能变革，服务产业升级！作为智能行业新锐媒体，智东西专注五大领域：VR/AR；AI/机器人/无人机；智能汽车/智能出行；智能家居/物联网；智能穿戴/智能医疗，通过内容、活动、报告以及社群等方式助力“智能＋”时代的创业和产业升级。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

智东西 · 公众号 · 科技媒体 · 2025-08-06 08:07

主要观点总结

谷歌DeepMind发布了新的世界模型Genie 3，这是一个可交互的通用世界模型。Genie 3基于文本提示，能以每秒24帧的速度、720p的分辨率生成长达数分钟的交互式3D环境。Genie 3与前代模型相比，在真实感和一致性方面有所提升，并能生成更逼真自然的内容，如模拟真实世界物理特性、动植物逼真的动画和小说建模等。此外，Genie 3还支持实时交互，包括改变已生成世界的天气条件、引入新物体等。谷歌DeepMind通过发布Genie 3来推动AI Agent的训练，这是迈向通用人工智能（AGI）的关键一步。

关键观点总结

关键观点1: Genie 3的特点

Genie 3允许用户以每秒24帧的速度、以720p的分辨率生成交互式3D环境；与前代模型相比，在真实感和一致性方面有所提升；支持基于文本的交互形式，并能改变已生成的世界，如天气、引入新物体等。

关键观点2: Genie 3的应用场景

Genie 3在模拟真实世界物理特性、动植物逼真动画和小说建模等方面表现出色；还可应用于机器人和自主系统的训练空间，并评估其表现；未来可能在迈向通用人工智能（AGI）的过程中发挥关键作用。

关键观点3: Genie 3的局限性

尽管Genie 3支持广泛的环境干预，但Agent可直接执行的操作范围目前受到限制；准确建模共享环境中多个独立Agent之间的复杂交互仍然是一个挑战；无法以完美的地理精度模拟真实世界的位置；文本渲染通常只有在输入世界描述中提供时才会生成清晰易读的文本；目前支持几分钟的持续交互，无法支持长达数小时的交互。