#一句话生成3D世界##谷歌发布新一代通用世界模型#谷歌DeepMind发布了世界模型Genie 3，可以一句话生成完整虚拟世界，还支持实时互动。你只需要输入一句描述，比如“在海边骑自行车”，它就能在几秒钟内生成一个720p、24帧的3D世界，用户可以像玩游戏一样在里面探索。这里有几个演示视频展示了它

#一句话生成3D世界##谷歌发布新一代通用世界模型#

谷歌DeepMind发布了世界模型Genie 3，可以一句话生成完整虚拟世界，还支持实时互动。

你只需要输入一句描述，比如“在海边骑自行车”，它就能在几秒钟内生成一个720p、24帧的3D世界，用户可以像玩游戏一样在里面探索。

这里有几个演示视频展示了它对场景、目标、顺序的理解有多精准：

- 【视频1】：按钮点哪去哪

用户界面上有一排“目标”按钮，点击“接近工业搅拌机”，视角立刻移动到搅拌机前；点“走到冷却架”，视角就切到冷却架位置。这种通过简单点击控制角色移动的方式，说明Genie 3不仅能生成场景，还能在其中规划合理的互动路径。

- 【视频2】：能听懂先后顺序

指令是：“接近滚动的服装架，然后走到彩绘布景墙。” 模型准确执行了两个动作，顺序也没错，体现出对“然后”这类连接词的理解能力，不仅识别对象，还能遵循步骤。

- 【视频3】：长指令理解在线

用户输入的是一串复杂路径描述：“走到铝制烤盘架，然后走到台面上那个大型红色工业立式搅拌机旁边。” 模型依然顺利完成了这两个点之间的导航，说明它不仅能理解具体物体位置，还能根据连续命令保持场景一致性。

- 【视频4】：能处理副词

指令是：“小心地走到华丽的镀金王座旁边，然后移动到服装架。” 尽管“小心地”这样的副词并没有具体的视觉体现，模型仍然完整执行了路径移动，保持动作的顺序和方向一致，说明它对语言细节的理解并不浮于表面。

此外，Genie 3还具有以下特点：

- 可交互的动态世界：用户可以实时操作，甚至通过文本触发“世界事件”（promptable world events），比如改变天气、生成新物体；

- 高一致性渲染：Genie 3每一帧都是逐帧生成的（auto-regressive），考虑了最长一分钟前的环境状态，能做到连续几分钟世界细节保持一致；

- 无需3D建模：跟NeRF或Gaussian Splatting不同，它不是靠已有3D素材拼装世界，而是根据文字直接生成，更灵活开放；

虽然目前它还存在如操作空间有限、无法完全精准还原真实地理位置、交互时长限制（可玩几分钟）等问题，但这已经是朝“通用人工智能”（AGI）迈出的重要一步。

对AI研究者来说，这是一个更真实、更可控的训练平台；对内容创作者来说，也许是下一个虚拟世界的雏形。

目前Genie 3仍处于受限预览阶段，仅向部分研究人员和创作者开放测试。