理想汽车发布自动驾驶基座模型

在正在进行的英伟达GTC大会上，理想汽车揭秘了下一代自动驾驶基座模型MindVLA-o1。这不是一次简单的升级，而是一次从“感知”到“认知”的跨越。

面对VLA大模型上车面临的三大难题——空间对齐、长尾覆盖、算力瓶颈，理想给出了系统性的解法：

🔹 3D空间理解重构
从底层重写3D ViT视觉编码器，引入激光雷达点云作为几何提示，结合前馈式3DGS表示。让模型不仅“看见”场景，更能“理解”三维结构。

🔹 让模型学会“预演未来”
在决策端引入预测式隐世界模型，车辆在执行动作前，先在隐空间推演未来几秒的演化。理想称之为“多模态思考”——自动驾驶不再是条件反射，而是有预判的行动。

🔹 行为生成的三重突破
MoE混合专家模型 + 并行解码 + 离散扩散优化。这是理想首次将这三项技术同时落地上车：专家网络保证专业能力、并行解码降低延迟、扩散模型提升精度。

🔹 用世界模拟器对抗长尾
分布式3DGS渲染引擎支撑大规模闭环强化学习，渲染速度提升2倍，训练成本降低75%。那些现实中难以遇到的极端场景，在仿真中反复锤炼。

🔹 软硬件协同设计
端侧大模型不再“精度高的跑不动，跑得动的精度低”。通过软硬件协同设计，架构探索从数月缩短至几天。

在理想汽车的构想中，MindVLA-o1不只是自动驾驶模型，更是Physical Agents范式的雏形。MindData、MindVLA、MindSim、RL Infra四个模块构成的闭环，正在让车辆成为一个能理解、能思考、能进化的物理智能体。

自动驾驶只是起点，物理AI的未来正在加速到来。

#理想汽车##英伟达GTC##自动驾驶##VLA模型##具身智能# http://t.cn/AXfLecTW

发布于贵州