小鹏X-Mind让车学会"脑补未来":12帧推演压进96个token
小鹏今天正式发布了X-Mind技术框架,核心是一句话:让自动驾驶从"看到就反应"升级为"看到先想再动"。
技术路线上的分歧一直存在。当前主流VLA(视觉-语言-动作)模型本质是反应式的——摄像头画面进来,规划轨迹出去,中间缺了一个"推演"环节。就像新手司机只看眼前踩油门,不知道三秒后旁边的车会不会变道。X-Mind的做法是在感知和规划之间插入一个预测性世界模型,用视觉思维链(Visual CoT)先推演未来交通流的变化,再决定怎么走。
具体怎么推演的?两个关键技术撑起了这套框架。
第一是"认知画布"。传统做法要么用文本描述场景(丢几何信息),要么生成未来画面(冗余纹理太多)。X-Mind取了一条中间路线:融合鸟瞰图布局和驾驶先验知识,画一张只保留道路拓扑、交通灯状态、导航意图、车速轮廓的抽象草图。用深度压缩自编码器(DC-AE)把12帧未来推演压缩到仅96个token——对比原始图像的token开销,这是数量级的压缩。等于说模型不猜"草坪是什么颜色",只算"那个路口三秒后能不能过"。
第二是递归块扩散(RBD)机制。传统扩散模型要多次迭代去噪,延迟扛不住。X-Mind把去噪步骤分散到Transformer的不同内部层里,单次前向传播就能完成高质量推演。小鹏披露的实验数据是FID 9.59对单步去噪的67.30,图像质量大幅领先,但推理延迟基本持平。
实战数据也给了:包含数亿帧真实道路数据训练,对比传统VLA模型,横纵向轨迹预测误差(ADE)显著降低,复杂长尾场景下安全性和合规性大幅提升。关键是推理延迟极低,能在车规级芯片上量产落地——这一点决定了它是论文还是产品。
另一个值得记的时间节点:何小鹏6月26日透露,联合国WP.29已批准DCAS(城区NGP功能法规)和UNR ADS(L3-L5自动驾驶法规),六个月后生效,也就是2026年底自动驾驶可合法进入全球。技术+法规两条线对齐,小鹏的X-Mind不是为发论文准备的,是冲着法规落地的窗口发布的。
前面还有X-World、X-Foresight、X-Cache一系列学术铺垫,X-Mind是这套物理AI基座模型拼图的最后一块。逻辑很清楚:让模型不仅学"怎么开",更要理解"开了之后世界会怎么变"。
