小鹏X-Mind让车学会"脑补未来"：12帧推演压进96个token小鹏今天正式发布了X-Mind技术框架，核心是一句话：让自动驾驶从"看到就反应"升级为"看到先想再动"。技术路线上的分歧一直存在。当前主流VLA（视觉-语言-动作）模型本质是反应式的——摄像头画面进来，规划轨迹出去，中间缺了一个"推演"环节。

小鹏X-Mind让车学会"脑补未来"：12帧推演压进96个token

小鹏今天正式发布了X-Mind技术框架，核心是一句话：让自动驾驶从"看到就反应"升级为"看到先想再动"。

技术路线上的分歧一直存在。当前主流VLA（视觉-语言-动作）模型本质是反应式的——摄像头画面进来，规划轨迹出去，中间缺了一个"推演"环节。就像新手司机只看眼前踩油门，不知道三秒后旁边的车会不会变道。X-Mind的做法是在感知和规划之间插入一个预测性世界模型，用视觉思维链（Visual CoT）先推演未来交通流的变化，再决定怎么走。

具体怎么推演的？两个关键技术撑起了这套框架。

第一是"认知画布"。传统做法要么用文本描述场景（丢几何信息），要么生成未来画面（冗余纹理太多）。X-Mind取了一条中间路线：融合鸟瞰图布局和驾驶先验知识，画一张只保留道路拓扑、交通灯状态、导航意图、车速轮廓的抽象草图。用深度压缩自编码器（DC-AE）把12帧未来推演压缩到仅96个token——对比原始图像的token开销，这是数量级的压缩。等于说模型不猜"草坪是什么颜色"，只算"那个路口三秒后能不能过"。

第二是递归块扩散（RBD）机制。传统扩散模型要多次迭代去噪，延迟扛不住。X-Mind把去噪步骤分散到Transformer的不同内部层里，单次前向传播就能完成高质量推演。小鹏披露的实验数据是FID 9.59对单步去噪的67.30，图像质量大幅领先，但推理延迟基本持平。

实战数据也给了：包含数亿帧真实道路数据训练，对比传统VLA模型，横纵向轨迹预测误差（ADE）显著降低，复杂长尾场景下安全性和合规性大幅提升。关键是推理延迟极低，能在车规级芯片上量产落地——这一点决定了它是论文还是产品。

另一个值得记的时间节点：何小鹏6月26日透露，联合国WP.29已批准DCAS（城区NGP功能法规）和UNR ADS（L3-L5自动驾驶法规），六个月后生效，也就是2026年底自动驾驶可合法进入全球。技术+法规两条线对齐，小鹏的X-Mind不是为发论文准备的，是冲着法规落地的窗口发布的。

前面还有X-World、X-Foresight、X-Cache一系列学术铺垫，X-Mind是这套物理AI基座模型拼图的最后一块。逻辑很清楚：让模型不仅学"怎么开"，更要理解"开了之后世界会怎么变"。

发布于北京