今天早上刷到Waymo基于 DeepMind 的 Genie 3 ,推出了最新世界模型 Waymo World Model。
该说不说,Waymo这个模型还是蛮牛的。看演示可以生成高度逼真且可交互的 3D 环境,模拟极为罕见的事件。
比如在虚拟世界里模拟遇见龙卷风、大象这些现实中根本碰不到的场景。
说到世界模型,就在上周,我还刷到之前fo的一位海外博主Gaurav Dhiman在X上发了条帖子,大意是国产开源项目LingBot让他非常震惊。
这哥们之前在Meta和美国运通干了20多年工程师,他把蚂蚁灵波的 LingBot-World 和谷歌的 Genie 3 做了逐帧对比,结论是开源社区已经开始直接对标全球最先进的闭源模型了。
而且谷歌那个只对美国地区付费用户开放,但蚂蚁灵波这个完全开源。
感觉世界模型这一波,真的要起来了。
先聊聊世界模型。
传统的AI训练,就是喂数据、调参数、跑测试,机器人大多只能处理见过的情况。
这里面最核心问题出在它不会推演。
而世界模型就是让机器人学会在脑子里预演,就像你过马路前会预判车速、距离、时机,机器人现在也能做类似的事了。
Waymo那套模型,能在虚拟世界里跑几十亿英里,把各种极端场景全过一遍。
这就是从死记硬背到先想后做的跨越。
包括上周国产开源项目蚂蚁灵波LingBot把全家桶开源了,四天连发四个具身智能模型,每一个都开源,每一个都能单独用,也能组合着用。
这个项目直接登顶Hugging Face热榜,X平台科技话题第一,Reddit好几个垂类社区被刷屏。
有个博主Shruti Mishra发现,LingBot-Depth配合200美金的消费级相机,效果能吊打工业级深度相机。
只有200美金,你没看错。
以前要花几万块买工业相机,现在普通开发者用消费级设备就能采到高质量数据,直接降低了硬件门槛。
而且,蚂蚁灵波这次开源的LingBot-VLA,训练数据量达到惊人的2万小时级别。
这个规模下,模型的泛化能力出现了跃迁,不需要针对每个具体任务重新训练,直接就能适应新场景、新物体。
机器人领域也在验证 Scaling Law,就像大语言模型那样,数据规模上去了,能力就会出现质的飞跃。
硅谷有个AI新闻平台MarkTechPost的CEO Asif Razzaq甚至专门写了篇分析,说机器人规模化的主要阻碍不在硬件,而在反复训练这件事上。
而蚂蚁灵波的全栈开源体系,从感知到认知,每个模型互为助力,这才是真正降低行业门槛的做法。
这意味着,技术门槛正在坍塌。
但更重要的是,这不是简单的国产VS海外、开源VS闭源的问题,更是关于技术民主化的问题。
Waymo的世界模型确实很酷,但它服务的还是Alphabet这样的巨头。
而LingBot这种开源项目,服务的是所有想做具身智能的人。
这一波世界模型加VA范式的组合拳,可能真的会改写行业格局。
不是说哪家公司会赢,而是整个具身智能的研发范式在转变,从每家从零训练,变成在开源基座上做适配。
世界模型是不是机器人走向通用智能的终极路径?
可能是,但更可能的情况是,路径不重要,能让更多人走上这条路才重要。
