Waymo与蚂蚁灵波开源世界模型

今天早上刷到Waymo基于 DeepMind 的 Genie 3 ，推出了最新世界模型 Waymo World Model。

该说不说，Waymo这个模型还是蛮牛的。看演示可以生成高度逼真且可交互的 3D 环境，模拟极为罕见的事件。
比如在虚拟世界里模拟遇见龙卷风、大象这些现实中根本碰不到的场景。

说到世界模型，就在上周，我还刷到之前fo的一位海外博主Gaurav Dhiman在X上发了条帖子，大意是国产开源项目LingBot让他非常震惊。

这哥们之前在Meta和美国运通干了20多年工程师，他把蚂蚁灵波的 LingBot-World 和谷歌的 Genie 3 做了逐帧对比，结论是开源社区已经开始直接对标全球最先进的闭源模型了。

而且谷歌那个只对美国地区付费用户开放，但蚂蚁灵波这个完全开源。

感觉世界模型这一波，真的要起来了。

先聊聊世界模型。

传统的AI训练，就是喂数据、调参数、跑测试，机器人大多只能处理见过的情况。
这里面最核心问题出在它不会推演。

而世界模型就是让机器人学会在脑子里预演，就像你过马路前会预判车速、距离、时机，机器人现在也能做类似的事了。

Waymo那套模型，能在虚拟世界里跑几十亿英里，把各种极端场景全过一遍。
这就是从死记硬背到先想后做的跨越。

包括上周国产开源项目蚂蚁灵波LingBot把全家桶开源了，四天连发四个具身智能模型，每一个都开源，每一个都能单独用，也能组合着用。

这个项目直接登顶Hugging Face热榜，X平台科技话题第一，Reddit好几个垂类社区被刷屏。

有个博主Shruti Mishra发现，LingBot-Depth配合200美金的消费级相机，效果能吊打工业级深度相机。

只有200美金，你没看错。
以前要花几万块买工业相机，现在普通开发者用消费级设备就能采到高质量数据，直接降低了硬件门槛。

而且，蚂蚁灵波这次开源的LingBot-VLA，训练数据量达到惊人的2万小时级别。
这个规模下，模型的泛化能力出现了跃迁，不需要针对每个具体任务重新训练，直接就能适应新场景、新物体。

机器人领域也在验证 Scaling Law，就像大语言模型那样，数据规模上去了，能力就会出现质的飞跃。

硅谷有个AI新闻平台MarkTechPost的CEO Asif Razzaq甚至专门写了篇分析，说机器人规模化的主要阻碍不在硬件，而在反复训练这件事上。

而蚂蚁灵波的全栈开源体系，从感知到认知，每个模型互为助力，这才是真正降低行业门槛的做法。

这意味着，技术门槛正在坍塌。

但更重要的是，这不是简单的国产VS海外、开源VS闭源的问题，更是关于技术民主化的问题。

Waymo的世界模型确实很酷，但它服务的还是Alphabet这样的巨头。
而LingBot这种开源项目，服务的是所有想做具身智能的人。

这一波世界模型加VA范式的组合拳，可能真的会改写行业格局。
不是说哪家公司会赢，而是整个具身智能的研发范式在转变，从每家从零训练，变成在开源基座上做适配。

世界模型是不是机器人走向通用智能的终极路径？
可能是，但更可能的情况是，路径不重要，能让更多人走上这条路才重要。

发布于上海