小鹏第二代VLA推送解析

#何小鹏直播第二代VLA推送#前夕，再聊聊【Visual CoT】与【世界模型】。

之前讲了小鹏的VLA2.0和老的VLA有什么区别，如果没读之前的文章，建议先看一下：http://t.cn/AXVhDkR7 不然会不好理解。

CoT思维链，他是引导LLM大语言模型如何更有效地解决问题的一种方式，CoT的核心思想是拆解步骤，让其他人知道这个结果是如何得出的，这点与E2E的黑盒模式有很大不同。

传统CoT推理的模态是纯文本，在数学和逻辑方面表现很好，但是在视觉推理中表现就有点不够看了，因为不能理解物理世界。在缺乏视觉上下文的情况下，模型可能因信息不足而产生决策幻觉：比如一个玻璃杯掉落在水泥地上完好无损。

然后这次小鹏在多模态模型上，对应的就出现了Visual CoT，视觉思维链。一种用来引导多模态模型进行逐步解决问题的思维方式。优点是更好的支持图像，更适合视觉推理任务，更好的理解物理世界。

如果比喻一下，传统的CoT是在草稿纸上写东西一步步计算得出结果，而Visual CoT就像是要拼乐高一样，识别对应的部件，看有哪种可能，再选取一个最佳方案装配上去。

然后小鹏这次第二代VLA发布会提出的【32倍超密Visual CoT】，大家就可以理解成非常nb，效率非常高的视觉推理思维就行了，比传统的CoT的思维误差降低了三分之一，只是一个非常大的进步了。

VLA2.0表现出一些老司机的超神的预判反应，就是与这个32倍超密Visual CoT密不可分。

Visual CoT的思考过程是“画面流”。它能理解外部的物理世界了，并在脑海中“脑补”出未来的物体运动画面，所以有些车企为了宣传方便，也把类似的能力称为“世界模型”WM。但如果严格的说，世界模型WM只是说有理解外部物理世界的能力，并不包含动作输出。但是在车端，肯定是需要动作输出的，所以Action是一定不能少的。

“世界模型”WM目前有两种概念：

一个是行业外并不严谨的称呼：理解外部物理世界，并预测物体运动未来时间点的内容，算是一个理解世界->预测的过程，不需要对虚拟世界的构建能力。当然最后得再外挂Action，才能用在车端的。这个需要的算力较小。如果前面再加个视觉输入的“感知”，后面加个Action，这个其实就与小鹏的VLA2.0基本结构甚至之前的VLA都差不太多。

比如华为车端的“世界行为模型”World Action Model，注意加了Action行为两个字，而不是“世界模型"，这种带Action的才能给车端用。这个就是每个厂家的定义不一样了，比如小鹏叫VLA2.0，而我喜欢叫VMA，但表达的思路都差不多。

车端这块带不带“世界”其实只是一种能力的包装，和技术架构没啥关系。因为这个“理解并预测物理世界”只是一种能力，到底是用的LLM，还是多模态大模型；是CoT，还是VCoT，并没有详细说，但是一般是用轻量化的多模态。

“世界模型”还有另外一种行业里从技术能力维度最常见的严谨定义：能构建、生成完整虚拟世界的才叫严格意义上的世界模型。

类似于seedance 2.0视频生成模型，不但理解外部物理世界，并预测未来时间的内容，还能构建生成整个虚拟的物理世界。但这个因为巨大算力的消耗，是不能部署在车端的，一般是部署在数据中心，使用了重型大量参数的多模态生成式模型。

因为他不但能理解和预测，还有构建虚拟的物理世界的能力，所以行业里一般是称这种才是真正的“世界模型”。那么其实车企也都在做后面的这种世界模型，比如特斯拉的World Simulator世界模拟器，华为也有世界引擎World Engine，小鹏也有这个世界模型。

但是这些世界模型都是部署在云端，用来训练和验证，强化学习用的。与大家经常接触的在车端的能力、架构还是有不小的区别。

#小鹏汽车[超话]# http://t.cn/AXfhAjvA

发布于北京