量子位 25-08-06 09:36
微博认证:量子位官方微博

#一句话生成3D世界##谷歌发布新一代通用世界模型#

谷歌DeepMind发布了世界模型Genie 3,可以一句话生成完整虚拟世界,还支持实时互动。

你只需要输入一句描述,比如“在海边骑自行车”,它就能在几秒钟内生成一个720p、24帧的3D世界,用户可以像玩游戏一样在里面探索。

这里有几个演示视频展示了它对场景、目标、顺序的理解有多精准:

- 【视频1】:按钮点哪去哪

用户界面上有一排“目标”按钮,点击“接近工业搅拌机”,视角立刻移动到搅拌机前;点“走到冷却架”,视角就切到冷却架位置。这种通过简单点击控制角色移动的方式,说明Genie 3不仅能生成场景,还能在其中规划合理的互动路径。

- 【视频2】:能听懂先后顺序

指令是:“接近滚动的服装架,然后走到彩绘布景墙。” 模型准确执行了两个动作,顺序也没错,体现出对“然后”这类连接词的理解能力,不仅识别对象,还能遵循步骤。

- 【视频3】:长指令理解在线

用户输入的是一串复杂路径描述:“走到铝制烤盘架,然后走到台面上那个大型红色工业立式搅拌机旁边。” 模型依然顺利完成了这两个点之间的导航,说明它不仅能理解具体物体位置,还能根据连续命令保持场景一致性。

- 【视频4】:能处理副词

指令是:“小心地走到华丽的镀金王座旁边,然后移动到服装架。” 尽管“小心地”这样的副词并没有具体的视觉体现,模型仍然完整执行了路径移动,保持动作的顺序和方向一致,说明它对语言细节的理解并不浮于表面。

此外,Genie 3还具有以下特点:

- 可交互的动态世界:用户可以实时操作,甚至通过文本触发“世界事件”(promptable world events),比如改变天气、生成新物体;

- 高一致性渲染:Genie 3每一帧都是逐帧生成的(auto-regressive),考虑了最长一分钟前的环境状态,能做到连续几分钟世界细节保持一致;

- 无需3D建模:跟NeRF或Gaussian Splatting不同,它不是靠已有3D素材拼装世界,而是根据文字直接生成,更灵活开放;

虽然目前它还存在如操作空间有限、无法完全精准还原真实地理位置、交互时长限制(可玩几分钟)等问题,但这已经是朝“通用人工智能”(AGI)迈出的重要一步。

对AI研究者来说,这是一个更真实、更可控的训练平台;对内容创作者来说,也许是下一个虚拟世界的雏形。

目前Genie 3仍处于受限预览阶段,仅向部分研究人员和创作者开放测试。