蚂蚁灵波开源世界模型

#蚂蚁的世界模型来了##可以10分钟一直生成的世界模型#

整整三天，一波接一波连续开源。

在机器人的眼睛（LingBot-Depth）和机器人的大脑（LingBot-VLA）之后，刚刚，蚂蚁灵波又开源了一个大的：

通用的世界模型——LingBot-World。

是可以支持在10分钟时长里，一直生成、一直交互的那种，来感受一下这个feel：【图1】。

不难看出，视觉效果已经做到了与DeepMind推出的Genie 3不相上下，但时间维度上明显是更长。

而且LingBot-World生成的视频不只是能看，你也可以深度参与其中。

你可以通过键盘（WASD）和鼠标，实时控制视角的推进、旋转，就像在玩一款3A大作一样：【图2】。

当然，Agent也能够在生成的世界中自主规划并执行动作。

与此同时，你也可以用自然语言的方式去实时改变生成世界里的一切。

例如我们“喂”给LingBot-World这样一张初始图：【图3】。

只需输入“前面放个烟花”（0-10s）、“变成冰雪世界”（10-20s），LingBot-World就会从这张图开始按照你的要求生成下去：【图4】。

言出法随，真·言出法随。

不仅如此，LingBot-World一致性这块也是拿捏的非常到位，例如下面的科幻场景，不论是远景还是近景，那个光圈始终保持高度的一致性：【图5】。

除了一致性之外，记忆力这块也是值得说道说道。

即便画面已经离开了视频中的猫咪一段时间，但当镜头转回来，LingBot-World还能保持持续的记忆，并推断猫咪在屏外的行为。

就仿佛一切都在自然演进、发生一样：【图6】。

并且LingBot-World还严格遵循现实世界的物理规律，同样是这只猫咪，当它撞到沙发的时候就不会出现穿模的情况，会显得更加真实：【图7】。

如此效果，也难怪刚刚发布，就已经在国内外的网上掀起了不小的热议：“真正的突破不在于视觉。而是它将记忆力、交互和持续性整合到了一起。”

但最最最关键的是，不同于Genie 3的闭源，LingBot-World选择的是完全开源！

这也成了网友们直呼“Amazing”的重点：“对开源社区来说是个巨大的胜利。如此开源对具身智能来说是个巨大进步。”

那么LingBot-World到底是如何做到的呢？

相关论文也已新鲜出炉，我们这就来一探究竟。http://t.cn/AXqOoXGf