电动知士大雨 26-03-17 16:58
微博认证:汽车博主

英伟达GTC 2026,理想分享了下一代自动驾驶基座模型MindVLA-o1,简单给大家拆解下里面的要点:

1. 3D空间理解、3D ViT + 3DGS: 感知层面以视觉为主,但把激光雷达点云作为三维几何提示(Prompt)输入给 3D ViT 编码器 。重点是引入了前馈式 3DGS 表示,把场景里的静态背景和动态物体拆分开来分别建模 。然后系统通过“预测下一帧”来做自监督训练,从而一次性提取深度、语义和物体运动特征 。

讲大白话,就是用激光雷达来训练视觉,不是在测试车上,而是在量产车上实现。

2. 多模态思考、隐世界模型: 决策端引入了预测式隐世界模型(Predictive Latent World Model)。在给出具体的驾驶动作前,模型会先在隐空间里推演未来几秒的场景演化 。这相当于给 AI 装上了预判能力,让它能在脑海中提前“想象”未来画面,想清楚了再动 。

3. 统一行为生成,并行解码 + 离散扩散: 采用 VLA-MoE(混合专家模型)架构,专门切分出了 Action Expert(动作专家) 。为了解决动作输出的延迟问题,用了并行解码技术,一次性生成整条轨迹的所有点 。同时,套用离散扩散模型做多轮去噪优化,保证生成的轨迹连续,且符合车辆真实的物理动力学约束 。

4. 闭环强化学习、世界模拟器: 长尾场景靠实车跑不现实,所以理想在世界模拟器里跑大规模的闭环强化学习 。他们搞了一套分布式的 3DGS 渲染引擎,让渲染速度提升了近 2 倍,训练成本直接降低了约 75% 。

5. 软硬件协同设计: 针对端侧算力部署,利用 Roofline 模型建立了一套分析框架 。他们在英伟达 Orin 和 Thor 平台上寻找模型精度和推理延迟的帕累托前沿,把架构探索的时间从数月缩短到了几天 。

总结一下,MindVLA-o1 的技术内核是一个融合了 3D 空间理解、基于世界模型推演未来、并通过闭环强化学习不断优化的复杂网络 。这套算法的通用性不仅能用来控车,还能直接跨界控制机械臂。

#英伟达携手国内多车企加速L4落地#

发布于 北京