量子位 26-01-28 19:13
微博认证:量子位官方微博

#蚂蚁开源最强VLA基座模型##20000小时真实数据让机器人变聪明#

从3000小时到整整20000小时。

真实世界数据里的Scaling Law,直接喂出了个最强VLA(Vision-Language-Action)基座模型!【图1】

这就是蚂蚁灵波今天开源的具身智能基座模型——LingBot-VLA。

为什么说它是目前最强?先看数据。

从“20000小时”这个量上来看,LingBot-VLA已经解锁了迄今为止开源的最大规模真实机器人数据之一。

并且性能也是够打,在权威评测中也全面超越了此前公认最强Physical Intelligence的π0.5,以及英伟达GR00T N1.6等一众国际顶尖模型。【图2】

再看实际表现。

此前具身智能圈子一个很头疼的问题,就是一旦环境发生变化,VLA就不太好使了:

换了个机器人,Fail;
换了个摄像头,Fail;
换个桌子高度,Fail……

但在LingBot-VLA加持下的机器人,脑子一下子就变聪明了,学会了见招拆招。

例如面对复杂的收纳操作——把桌面物体放进包里并拉上拉链,机器人双手各司其职,动作一气呵成:【图3】。

更复杂一点的餐具清洁整理——配合多种工具完成餐具清洗并归位,可以看到,机器人依旧是能精准拿捏各种各样的物体。

即便是像透明玻璃杯这样往往让机器人看不清的物体,它也能轻松hold住:【图4】。

并且同样的任务,因为有了一个聪明的脑子,不论是放在AgileX、AgibotG1还是Galaxea三个不同的机器人身上,统统都能迎刃而解:【图5】。

而纵观整项研究,除了数据性能和实际表现之外,更关键的一点是,LingBot-VLA还指明了一条通用具身智能发展路径:

从3000小时到20000小时,首次在真实世界场景中,系统性地验证了VLA模型性能会随着数据规模扩大而持续提升的Scaling Law。

并且是在20000小时之后,性能提升还没有失效的那种。

正如网友总结的那般:“更多真实数据 → 更高成功率 → 还未达到饱和。”【图6】

那么LingBot-VLA具体又是如何实现的?我们继续往下看。http://t.cn/AXqKap3P