看了郎博这篇微博,我也说两句:
宇树科技王总对于VLA的担忧,源于他们自己的尝试,他觉得单靠VLA是做不到通用、可靠的具身智能系统的。
因为有足够多的实践经验,所以他当然有发言权。但是这里有一个关键问题就是,他做的是人形机器人,而不是车形机器人。这两者的复杂程度完全不同。
现在应该没有人怀疑,汽车的自动驾驶会比人形机器人的量产先到来。因为汽车面临的情况比人形机器人简单得多,人形机器人面对的是无限场景,汽车面对的是有限规则+大量重复场景。人形机器人需要几何理解、力学理解、接触模型,汽车不需要这些。而且,王兴兴对数据的担忧,就像郎博说的,VLA确实很依赖数据,但是他们有几十亿公里的数据,现在有100多万辆车每天在路上跑,收集到的数据都可以用。所以理想汽车的VLA有大量真实、高质量的数据。而人形机器人的数据,收集起来就太难了。
这就是朗博和王兴兴对VLA的看法大相径庭的原因,简单说就是,VLA在自动驾驶领域已经得到了很好的验证(OTA 8.1之后,能力又得到很大提升),但想要仅靠VLA去做人形机器人的大脑,可能还不太行。
现在业界越来越多的声音认为,VLA在自动驾驶领域将是终极解决方案。因为它流程最短,没有人工设边界,理论上最优上限最高。它的“黑盒”问题和推理延迟问题,是所有在走VLA路线的企业都在解决的事情。理想在最初开始做VLA的时候,就已经想明白这些问题的解决方法了。
在人类历史上,很多新技术都有类似的落地过程,像VLA这样优势明显,但存在先天劣势的技术并不少见。大部分人会因为它的先天劣势而退缩,或者尝试之后发现无法改善它的劣势,于是放弃。直到有人解决了它的问题,让技术落地……
到现在,关于“VLA到底是不是自动驾驶的终极解决方案”这个问题,答案已经越来越明了。它也许不是1-2年内最强的,但它应该是3年后最强的。其它架构应该也会慢慢的向VLA靠拢。
再说到人形机器人的通用智能解决方案,目前业界还处于摸索阶段,没有定论。理想之所以执意要做AI眼镜Livis,其中一个重要的原因就是,他们想通过眼镜来收集适用于训练人形机器人的物理世界数据。虽然现阶段,眼镜因为续航等问题还不能持续收集数据,在迭代几次之后,也许它就可以了呢。这是题外话了……
#理想高管回应王兴兴质疑#
