小鹏智驾技术解析

@托马斯电火车 XP最近的事情让我想起来开城那段日子，我说开10城，你一定要15个。我说开50个，你就说60个，也先不管谁赢谁输谁真谁假，反正嘴炮上先不要输---直到XP突然掏出了全国都能开，开城的故事结束了，大家开始比“全国”。全国之后是端到端，XP开始说端到端，雨后春笋大家开始端到端了，这些故事一而再，再而三地上演。

但它有一个很深层的问题是什么呢？
这个故事的叙事，是你的节奏，还是别人的节奏---在你的叙事逻辑里，你有属于自己的BGM，你按你的节奏走，一定是真金不怕火炼的。而如果你是跟着别人的叙事逻辑，对不起了，你得知道所有和主角嘴炮的人最后都是什么下场。

嘴炮没有意义，关键在于你是谁，你能做什么，你准备如何做。

过去几年智驾的生态非常复杂，但直到今年，我说过几次这件事：如果今天为止还没有能力把自研智驾大规模推向市场的，基本上已经失去机会了。这个背景下，MMT、地平线、元戎、文远，包括华为，意义上是主机厂所仰仗的存在了，供应商体系成熟了，但“自研能力”不错的主机厂也是有的，蔚小理都在这里面。

可是XP为什么会被抨击呢？主机厂负责卖车，供应商负责方案这样的“分工“，确实在某个商业逻辑里面被打破了。这里面有两个故事。
一是大众，大众之后，其实还有几家外企在和XP谈合作。
二是L4生态下的ROBOTAXI。

一旦主机厂把感知、理解、决策、动作、仿真、训练、部署、OTA这些链条打通了，供应商“我帮你补智能化短板”的商业逻辑就会需要重新做估值，从“定义能力的人”，变成“参与能力建设的人”，中间差别是很大的。

从这个背景下去理解一些故事，就什么都明白了。
有些过激反应看起来是在讨论技术，实际上是想守住自己的位置。
而“守住位置”的内核我们都知道应该是技术，而不是嘴炮，对么？

就VLA来说，它不是一个新名词。
它真正的冲击，在于过去拆成很多模块的智驾系统，变成了“统一模型理解世界并输出动作”这样的存在。我知道很多人就VLA还是VA这件事纠结了很多，但实际上大师兄也说过，从V到A中间一定有着某种隐式的机器L---只是在于你如何理解这个L而已，VLA和VLA都是VLA，但又不是同一种VLA，因此叫它VLA2.0。

我们抛开这个，XP把X-World和X-Cache也一起拿出来了。

X-World本质上是自动驾驶的世界模型。
普通人可以把它想成AI司机脑子里的“未来几秒预演”。车辆现在看到什么，方向盘打了多少，油门刹车是什么状态，接下来画面会怎么变化，系统提前预演一遍。人类老司机其实也干类似的事情，前车刹车灯亮、旁边电动车晃了一下、路口行人脚步没停，脑子里已经把几秒后的风险演算了一遍。只不过人是靠经验，小鹏是用生成式世界模型把这个过程工程化。

对于视频生成这件事来说，它只是个外壳。真正的价值是AI可以有一个反复试错的训练场。世界模型可以把很多稀有场景、边缘场景、复杂交互场景放到可控环境里做强化学习和闭环验证。智驾越往后，单纯靠真实路测堆里程的效率会越来越低---因为对于非常极端的超低概率场景，你几乎没有条件去做复现，可是你又要对此完成问题闭环，唯一的依赖，就只能是在虚拟世界里高质量生成、验证、筛选场景---而能否完成这件事，会直接影响进化速度。

但世界模型也有一个非常现实的问题：太吃算力。
扩散模型做视频生成，本质上是从噪声一步步去噪，修复模糊的，得到清晰的画面。
每一步都要经过网络计算，每一段视频都要反复推理。放在实验室里可以，放到大规模训练、在线强化学习、低算力部署里，成本马上就会变成瓶颈。很多技术无法量产并不是因为理论不够漂亮，而是真算不过来---实时性不够好的话，你就无法应对真实世界。

所以X-Cache是非常“工程”的东西。
它利用的是自动驾驶画面的时间连续性，省掉当中的重复计算。
车在路上开，前一段画面和后一段画面之间，大量内容其实是连续的。道路、树、护栏、建筑、车道线，不会凭空大变。既然物理世界是连续变化的，模型中间层的很多计算结果也不需要每次从头再来。

X-Cache做的就是跨时间片段、跨网络block的缓存复用。相邻画面段在同一个去噪步骤、同一层网络里的特征足够相似，那就直接复用上一段计算结果，把这一层跳过去。听着不如“世界模型”那么性感？但它解决的规模化计算的问题，约七成网络层可以跳过，推理速度可以提升两倍多，这种优化在工程上非常关键。

所以明白了么？
对于XP的未来，不仅仅是3000TOPS这种超强算力，也不仅仅是积累了这么久的超大规模数据量，也不仅仅是我们说过的非常先进的仿真体系，也不仅仅是“VLA”。它有很多很多的细节在里头，它有你没有。

今天大家容易被发布会大词所吸引，但真正的胜负手，经常藏在这种不太好讲故事的地方。这才是小鹏让整个行业紧张的真实内核。

第二代VLA负责驾驶大模型，X-World负责世界模型和仿真训练，X-Cache负责推理加速和工程效率，量产车、真实用户和OTA就此形成闭环，这个链路的意义不只是某一台车的智驾体验，而是智驾能力本身可以被平台化、规模化、外放化。

这也是为什么它和大众合作非常重要。
电子电气架构、智能驾驶能力和大众在中国的本土化产品结合起来，它不是简单的一个功能包。本质上是一种证明：XP的智驾和智能化能力，能不能不只服务于自己的车，能不能进入其他车企的平台。

对行业心理冲击很大都是能理解的了，对吧？

过去大家认为小鹏是一个新势力品牌，是市场里的一个玩家。
而今天它开始成长为一个技术底座的供应者，甚至在某些能力上反过来给传统巨头赋能。角色变化是非常微妙的。

说到这，我们再加上L4和Robotaxi的背景，逻辑就完整了。
如果说VLA2.0已经强到足以成为老司机了，加上云端接管和场景互动，它是不是就是新时期的ROBOTAXI了？

很多公司可以造车，但没有高等级自动驾驶的深水区经验。
也有很多公司有L4的技术经验，但没有大规模用户车队。
很多供应商有算法能力，但没有完整整车体验闭环。

可是能把这些都串起来的品牌有几个，你们心里数数就知道了。

什么是技术，什么是嘴炮，一目了然。
嘴炮的后续一般是这样的：主角开大以后，闭嘴了。

当然行业里互相质疑是很正常的。
但质疑也分两种。

一种是基于技术问题的认真讨论，比如VLA如何保证安全边界，世界模型生成场景如何避免失真，强化学习如何避免学到错误策略，车端部署如何解决延迟和功耗，这些问题都值得讨论，也应该讨论。另一种是针对别人的进展做矮化，再把自己的叙事抬高，嘴上说不对标，身体很诚实地追着回应。

这就没太大意思了。

行业最终不会按谁声音大来排序。
消费者其实很简单。
他们不关心你去年是不是做过类似东西，也不关心你对标特斯拉哪个版本，更不关心老板之间谁更懂得阴阳怪气。

他们关心的，只有“好用不好用”。
于是一切都回到真实场景里来了。

我怎么想呢？
可能，一个新的阶段，要出现了。
大家都认识到这个事情了---对于新的事物，自己一定是抵触的。
直到你折服，无法望其项背，然后叹息。

所以智驾，已经进入到硬碰硬的阶段了。
概念包装的空间在变小，真实能力的权重在变大。
我们可能，很快就要开到真正的淘汰赛了。

XP的VLA2.0强度有多大，很多人还没有意识到，而它在下半年已经准备好了更高强度的版本。对于友商来说，要证明自己也很简单，就以XP为对比。是马是骡子，都拉出来溜溜吧。

当我们每次都说“特斯拉”是最好的那一个时，似乎只要它不参与中国市场的竞争，它就是永远的“神”，可以给特斯拉跪下，但坚决不能给自己人跪下---这种心态是特别值得玩味的。

但有没有那么一种可能，我是说有没有这种可能。
有一天，当它在本土的表现、特性，和排序，和你心里想的并不一样的时候。
你会怎么样？

天会塌不？

#跑的闲言##小鹏汽车#

发布于湖南