理想发布自动驾驶MindVLA-o1

英伟达GTC 2026，理想分享了下一代自动驾驶基座模型MindVLA-o1，简单给大家拆解下里面的要点：

1. 3D空间理解、3D ViT + 3DGS：感知层面以视觉为主，但把激光雷达点云作为三维几何提示（Prompt）输入给 3D ViT 编码器。重点是引入了前馈式 3DGS 表示，把场景里的静态背景和动态物体拆分开来分别建模。然后系统通过“预测下一帧”来做自监督训练，从而一次性提取深度、语义和物体运动特征。

讲大白话，就是用激光雷达来训练视觉，不是在测试车上，而是在量产车上实现。

2. 多模态思考、隐世界模型：决策端引入了预测式隐世界模型（Predictive Latent World Model）。在给出具体的驾驶动作前，模型会先在隐空间里推演未来几秒的场景演化。这相当于给 AI 装上了预判能力，让它能在脑海中提前“想象”未来画面，想清楚了再动。

3. 统一行为生成，并行解码 + 离散扩散：采用 VLA-MoE（混合专家模型）架构，专门切分出了 Action Expert（动作专家）。为了解决动作输出的延迟问题，用了并行解码技术，一次性生成整条轨迹的所有点。同时，套用离散扩散模型做多轮去噪优化，保证生成的轨迹连续，且符合车辆真实的物理动力学约束。

4. 闭环强化学习、世界模拟器：长尾场景靠实车跑不现实，所以理想在世界模拟器里跑大规模的闭环强化学习。他们搞了一套分布式的 3DGS 渲染引擎，让渲染速度提升了近 2 倍，训练成本直接降低了约 75% 。

5. 软硬件协同设计：针对端侧算力部署，利用 Roofline 模型建立了一套分析框架。他们在英伟达 Orin 和 Thor 平台上寻找模型精度和推理延迟的帕累托前沿，把架构探索的时间从数月缩短到了几天。

总结一下，MindVLA-o1 的技术内核是一个融合了 3D 空间理解、基于世界模型推演未来、并通过闭环强化学习不断优化的复杂网络。这套算法的通用性不仅能用来控车，还能直接跨界控制机械臂。

#英伟达携手国内多车企加速L4落地#

发布于北京