在正在进行的英伟达GTC大会上,理想汽车揭秘了下一代自动驾驶基座模型MindVLA-o1。这不是一次简单的升级,而是一次从“感知”到“认知”的跨越。
面对VLA大模型上车面临的三大难题——空间对齐、长尾覆盖、算力瓶颈,理想给出了系统性的解法:
🔹 3D空间理解重构
从底层重写3D ViT视觉编码器,引入激光雷达点云作为几何提示,结合前馈式3DGS表示。让模型不仅“看见”场景,更能“理解”三维结构。
🔹 让模型学会“预演未来”
在决策端引入预测式隐世界模型,车辆在执行动作前,先在隐空间推演未来几秒的演化。理想称之为“多模态思考”——自动驾驶不再是条件反射,而是有预判的行动。
🔹 行为生成的三重突破
MoE混合专家模型 + 并行解码 + 离散扩散优化。这是理想首次将这三项技术同时落地上车:专家网络保证专业能力、并行解码降低延迟、扩散模型提升精度。
🔹 用世界模拟器对抗长尾
分布式3DGS渲染引擎支撑大规模闭环强化学习,渲染速度提升2倍,训练成本降低75%。那些现实中难以遇到的极端场景,在仿真中反复锤炼。
🔹 软硬件协同设计
端侧大模型不再“精度高的跑不动,跑得动的精度低”。通过软硬件协同设计,架构探索从数月缩短至几天。
在理想汽车的构想中,MindVLA-o1不只是自动驾驶模型,更是Physical Agents范式的雏形。MindData、MindVLA、MindSim、RL Infra四个模块构成的闭环,正在让车辆成为一个能理解、能思考、能进化的物理智能体。
自动驾驶只是起点,物理AI的未来正在加速到来。
#理想汽车##英伟达GTC##自动驾驶##VLA模型##具身智能# http://t.cn/AXfLecTW
发布于 贵州
