小小白Pro
26-06-29 17:29 微博认证:数码博主

小鹏今日正式发布 X-Mind 技术框架,针对自动驾驶模型主动思考、预见能力上限的行业难题,通过内嵌预测性世界模型赋予车载智能体高效的视觉思维链,攻克认知推理与实时计算的矛盾,宣称让自动驾驶拥有『预见未来』的大脑。

X-Mind 的核心架构是将预测世界模型无缝嵌入大型驾驶模型,依托循环块扩散机制,网络在单次前向传播的不同内部层执行渐进式去噪步骤,生成紧凑的抽象场景草图,规划器再基于这套物理未来推演结果得出最优自车轨迹。小鹏研发团队还将视觉思维链。Visual CoT 落地,在动作生成前完成显式时空推演,让车辆能像经验丰富的驾驶员一样提前预判交通流变化,规划路径充分考虑未来路况,提升防御性驾驶能力。

小鹏官方还提到,X-Mind 没有执着于高清纹理还原,转而构建融合鸟瞰图布局与抽象驾驶先验的“认知画布”,思维草图涵盖车道线、障碍物等物理场景元素、动态交通灯状态、自适应导航意图以及合规车速轮廓。借助深度压缩自编码器 DC-AE,12 帧的未来世界推演可被压缩至仅 96 个 Token,相比高冗余图像或成本高昂的 3D 重建方案,思维草图能高效过滤与规划无关的纹理干扰,仅保留道路拓扑、交通灯状态和导航意图等核心语义先验,从根本上解决长上下文带来的计算瓶颈。

基于包含数亿帧真实世界数据的训练集训练后,X-Mind 可应对前车急刹、匝道汇入、复杂十字路口博弈等场景,提前推演障碍物占位与场景因果链条。官方对比数据显示,相比传统 VLA 模型,X-Mind 在横纵向轨迹预测误差上均有显著降低,复杂长尾场景下的安全性与合规性大幅提升;相较于使用原始图像或 3D 高斯溅射作为中间表示的方案,X-Mind 推理延迟极低,具备在资源受限的车规级芯片上量产落地的可行性。

发布于 湖北