小鹏发布X-Mind技术框架

小鹏今日正式发布 X-Mind 技术框架，针对自动驾驶模型主动思考、预见能力上限的行业难题，通过内嵌预测性世界模型赋予车载智能体高效的视觉思维链，攻克认知推理与实时计算的矛盾，宣称让自动驾驶拥有『预见未来』的大脑。

X-Mind 的核心架构是将预测世界模型无缝嵌入大型驾驶模型，依托循环块扩散机制，网络在单次前向传播的不同内部层执行渐进式去噪步骤，生成紧凑的抽象场景草图，规划器再基于这套物理未来推演结果得出最优自车轨迹。小鹏研发团队还将视觉思维链。Visual CoT 落地，在动作生成前完成显式时空推演，让车辆能像经验丰富的驾驶员一样提前预判交通流变化，规划路径充分考虑未来路况，提升防御性驾驶能力。

小鹏官方还提到，X-Mind 没有执着于高清纹理还原，转而构建融合鸟瞰图布局与抽象驾驶先验的“认知画布”，思维草图涵盖车道线、障碍物等物理场景元素、动态交通灯状态、自适应导航意图以及合规车速轮廓。借助深度压缩自编码器 DC-AE，12 帧的未来世界推演可被压缩至仅 96 个 Token，相比高冗余图像或成本高昂的 3D 重建方案，思维草图能高效过滤与规划无关的纹理干扰，仅保留道路拓扑、交通灯状态和导航意图等核心语义先验，从根本上解决长上下文带来的计算瓶颈。

基于包含数亿帧真实世界数据的训练集训练后，X-Mind 可应对前车急刹、匝道汇入、复杂十字路口博弈等场景，提前推演障碍物占位与场景因果链条。官方对比数据显示，相比传统 VLA 模型，X-Mind 在横纵向轨迹预测误差上均有显著降低，复杂长尾场景下的安全性与合规性大幅提升；相较于使用原始图像或 3D 高斯溅射作为中间表示的方案，X-Mind 推理延迟极低，具备在资源受限的车规级芯片上量产落地的可行性。

发布于湖北