#何小鹏直播第二代VLA推送#前夕,再聊聊【Visual CoT】与【世界模型】。
之前讲了小鹏的VLA2.0和老的VLA有什么区别,如果没读之前的文章,建议先看一下:http://t.cn/AXVhDkR7 不然会不好理解。
CoT思维链,他是引导LLM大语言模型如何更有效地解决问题的一种方式,CoT的核心思想是拆解步骤,让其他人知道这个结果是如何得出的,这点与E2E的黑盒模式有很大不同。
传统CoT推理的模态是纯文本,在数学和逻辑方面表现很好,但是在视觉推理中表现就有点不够看了,因为不能理解物理世界。在缺乏视觉上下文的情况下,模型可能因信息不足而产生决策幻觉:比如一个玻璃杯掉落在水泥地上完好无损。
然后这次小鹏在多模态模型上,对应的就出现了Visual CoT,视觉思维链。一种用来引导多模态模型进行逐步解决问题的思维方式。优点是更好的支持图像,更适合视觉推理任务,更好的理解物理世界。
如果比喻一下,传统的CoT是在草稿纸上写东西一步步计算得出结果,而Visual CoT就像是要拼乐高一样,识别对应的部件,看有哪种可能,再选取一个最佳方案装配上去。
然后小鹏这次第二代VLA发布会提出的【32倍超密Visual CoT】,大家就可以理解成非常nb,效率非常高的视觉推理思维就行了,比传统的CoT的思维误差降低了三分之一,只是一个非常大的进步了。
VLA2.0表现出一些老司机的超神的预判反应,就是与这个32倍超密Visual CoT密不可分。
Visual CoT的思考过程是“画面流”。它能理解外部的物理世界了,并在脑海中“脑补”出未来的物体运动画面,所以有些车企为了宣传方便,也把类似的能力称为“世界模型”WM。但如果严格的说,世界模型WM只是说有理解外部物理世界的能力,并不包含动作输出。但是在车端,肯定是需要动作输出的,所以Action是一定不能少的。
“世界模型”WM目前有两种概念:
一个是行业外并不严谨的称呼:理解外部物理世界,并预测物体运动未来时间点的内容,算是一个理解世界->预测的过程,不需要对虚拟世界的构建能力。当然最后得再外挂Action,才能用在车端的。这个需要的算力较小。如果前面再加个视觉输入的“感知”,后面加个Action,这个其实就与小鹏的VLA2.0基本结构甚至之前的VLA都差不太多。
比如华为车端的“世界行为模型”World Action Model,注意加了Action行为两个字,而不是“世界模型",这种带Action的才能给车端用。这个就是每个厂家的定义不一样了,比如小鹏叫VLA2.0,而我喜欢叫VMA,但表达的思路都差不多。
车端这块带不带“世界”其实只是一种能力的包装,和技术架构没啥关系。因为这个“理解并预测物理世界”只是一种能力,到底是用的LLM,还是多模态大模型;是CoT,还是VCoT,并没有详细说,但是一般是用轻量化的多模态。
“世界模型”还有另外一种行业里从技术能力维度最常见的严谨定义:能构建、生成完整虚拟世界的才叫严格意义上的世界模型。
类似于seedance 2.0视频生成模型,不但理解外部物理世界,并预测未来时间的内容,还能构建生成整个虚拟的物理世界。但这个因为巨大算力的消耗,是不能部署在车端的,一般是部署在数据中心,使用了重型大量参数的多模态生成式模型。
因为他不但能理解和预测,还有构建虚拟的物理世界的能力,所以行业里一般是称这种才是真正的“世界模型”。那么其实车企也都在做后面的这种世界模型,比如特斯拉的World Simulator世界模拟器,华为也有世界引擎World Engine,小鹏也有这个世界模型。
但是这些世界模型都是部署在云端,用来训练和验证,强化学习用的。与大家经常接触的在车端的能力、架构还是有不小的区别。
#小鹏汽车[超话]# http://t.cn/AXfhAjvA
发布于 北京
