@托马斯电火车 XP最近的事情让我想起来开城那段日子,我说开10城,你一定要15个。我说开50个,你就说60个,也先不管谁赢谁输谁真谁假,反正嘴炮上先不要输---直到XP突然掏出了全国都能开,开城的故事结束了,大家开始比“全国”。全国之后是端到端,XP开始说端到端,雨后春笋大家开始端到端了,这些故事一而再,再而三地上演。
但它有一个很深层的问题是什么呢?
这个故事的叙事,是你的节奏,还是别人的节奏---在你的叙事逻辑里,你有属于自己的BGM,你按你的节奏走,一定是真金不怕火炼的。而如果你是跟着别人的叙事逻辑,对不起了,你得知道所有和主角嘴炮的人最后都是什么下场。
嘴炮没有意义,关键在于你是谁,你能做什么,你准备如何做。
过去几年智驾的生态非常复杂,但直到今年,我说过几次这件事:如果今天为止还没有能力把自研智驾大规模推向市场的,基本上已经失去机会了。这个背景下,MMT、地平线、元戎、文远,包括华为,意义上是主机厂所仰仗的存在了,供应商体系成熟了,但“自研能力”不错的主机厂也是有的,蔚小理都在这里面。
可是XP为什么会被抨击呢?主机厂负责卖车,供应商负责方案这样的“分工“,确实在某个商业逻辑里面被打破了。这里面有两个故事。
一是大众,大众之后,其实还有几家外企在和XP谈合作。
二是L4生态下的ROBOTAXI。
一旦主机厂把感知、理解、决策、动作、仿真、训练、部署、OTA这些链条打通了,供应商“我帮你补智能化短板”的商业逻辑就会需要重新做估值,从“定义能力的人”,变成“参与能力建设的人”,中间差别是很大的。
从这个背景下去理解一些故事,就什么都明白了。
有些过激反应看起来是在讨论技术,实际上是想守住自己的位置。
而“守住位置”的内核我们都知道应该是技术,而不是嘴炮,对么?
就VLA来说,它不是一个新名词。
它真正的冲击,在于过去拆成很多模块的智驾系统,变成了“统一模型理解世界并输出动作”这样的存在。我知道很多人就VLA还是VA这件事纠结了很多,但实际上大师兄也说过,从V到A中间一定有着某种隐式的机器L---只是在于你如何理解这个L而已,VLA和VLA都是VLA,但又不是同一种VLA,因此叫它VLA2.0。
我们抛开这个,XP把X-World和X-Cache也一起拿出来了。
X-World本质上是自动驾驶的世界模型。
普通人可以把它想成AI司机脑子里的“未来几秒预演”。车辆现在看到什么,方向盘打了多少,油门刹车是什么状态,接下来画面会怎么变化,系统提前预演一遍。人类老司机其实也干类似的事情,前车刹车灯亮、旁边电动车晃了一下、路口行人脚步没停,脑子里已经把几秒后的风险演算了一遍。只不过人是靠经验,小鹏是用生成式世界模型把这个过程工程化。
对于视频生成这件事来说,它只是个外壳。真正的价值是AI可以有一个反复试错的训练场。世界模型可以把很多稀有场景、边缘场景、复杂交互场景放到可控环境里做强化学习和闭环验证。智驾越往后,单纯靠真实路测堆里程的效率会越来越低---因为对于非常极端的超低概率场景,你几乎没有条件去做复现,可是你又要对此完成问题闭环,唯一的依赖,就只能是在虚拟世界里高质量生成、验证、筛选场景---而能否完成这件事,会直接影响进化速度。
但世界模型也有一个非常现实的问题:太吃算力。
扩散模型做视频生成,本质上是从噪声一步步去噪,修复模糊的,得到清晰的画面。
每一步都要经过网络计算,每一段视频都要反复推理。放在实验室里可以,放到大规模训练、在线强化学习、低算力部署里,成本马上就会变成瓶颈。很多技术无法量产并不是因为理论不够漂亮,而是真算不过来---实时性不够好的话,你就无法应对真实世界。
所以X-Cache是非常“工程”的东西。
它利用的是自动驾驶画面的时间连续性,省掉当中的重复计算。
车在路上开,前一段画面和后一段画面之间,大量内容其实是连续的。道路、树、护栏、建筑、车道线,不会凭空大变。既然物理世界是连续变化的,模型中间层的很多计算结果也不需要每次从头再来。
X-Cache做的就是跨时间片段、跨网络block的缓存复用。相邻画面段在同一个去噪步骤、同一层网络里的特征足够相似,那就直接复用上一段计算结果,把这一层跳过去。听着不如“世界模型”那么性感?但它解决的规模化计算的问题,约七成网络层可以跳过,推理速度可以提升两倍多,这种优化在工程上非常关键。
所以明白了么?
对于XP的未来,不仅仅是3000TOPS这种超强算力,也不仅仅是积累了这么久的超大规模数据量,也不仅仅是我们说过的非常先进的仿真体系,也不仅仅是“VLA”。它有很多很多的细节在里头,它有你没有。
今天大家容易被发布会大词所吸引,但真正的胜负手,经常藏在这种不太好讲故事的地方。这才是小鹏让整个行业紧张的真实内核。
第二代VLA负责驾驶大模型,X-World负责世界模型和仿真训练,X-Cache负责推理加速和工程效率,量产车、真实用户和OTA就此形成闭环,这个链路的意义不只是某一台车的智驾体验,而是智驾能力本身可以被平台化、规模化、外放化。
这也是为什么它和大众合作非常重要。
电子电气架构、智能驾驶能力和大众在中国的本土化产品结合起来,它不是简单的一个功能包。本质上是一种证明:XP的智驾和智能化能力,能不能不只服务于自己的车,能不能进入其他车企的平台。
对行业心理冲击很大都是能理解的了,对吧?
过去大家认为小鹏是一个新势力品牌,是市场里的一个玩家。
而今天它开始成长为一个技术底座的供应者,甚至在某些能力上反过来给传统巨头赋能。角色变化是非常微妙的。
说到这,我们再加上L4和Robotaxi的背景,逻辑就完整了。
如果说VLA2.0已经强到足以成为老司机了,加上云端接管和场景互动,它是不是就是新时期的ROBOTAXI了?
很多公司可以造车,但没有高等级自动驾驶的深水区经验。
也有很多公司有L4的技术经验,但没有大规模用户车队。
很多供应商有算法能力,但没有完整整车体验闭环。
可是能把这些都串起来的品牌有几个,你们心里数数就知道了。
什么是技术,什么是嘴炮,一目了然。
嘴炮的后续一般是这样的:主角开大以后,闭嘴了。
当然行业里互相质疑是很正常的。
但质疑也分两种。
一种是基于技术问题的认真讨论,比如VLA如何保证安全边界,世界模型生成场景如何避免失真,强化学习如何避免学到错误策略,车端部署如何解决延迟和功耗,这些问题都值得讨论,也应该讨论。另一种是针对别人的进展做矮化,再把自己的叙事抬高,嘴上说不对标,身体很诚实地追着回应。
这就没太大意思了。
行业最终不会按谁声音大来排序。
消费者其实很简单。
他们不关心你去年是不是做过类似东西,也不关心你对标特斯拉哪个版本,更不关心老板之间谁更懂得阴阳怪气。
他们关心的,只有“好用不好用”。
于是一切都回到真实场景里来了。
我怎么想呢?
可能,一个新的阶段,要出现了。
大家都认识到这个事情了---对于新的事物,自己一定是抵触的。
直到你折服,无法望其项背,然后叹息。
所以智驾,已经进入到硬碰硬的阶段了。
概念包装的空间在变小,真实能力的权重在变大。
我们可能,很快就要开到真正的淘汰赛了。
XP的VLA2.0强度有多大,很多人还没有意识到,而它在下半年已经准备好了更高强度的版本。对于友商来说,要证明自己也很简单,就以XP为对比。是马是骡子,都拉出来溜溜吧。
当我们每次都说“特斯拉”是最好的那一个时,似乎只要它不参与中国市场的竞争,它就是永远的“神”,可以给特斯拉跪下,但坚决不能给自己人跪下---这种心态是特别值得玩味的。
但有没有那么一种可能,我是说有没有这种可能。
有一天,当它在本土的表现、特性,和排序,和你心里想的并不一样的时候。
你会怎么样?
天会塌不?
#跑的闲言##小鹏汽车#
