理想智能驾驶进展

詹锟在GTC上分享了理想目前智能驾驶方面的进展，最关键的一点就是最新的VLA模型——MindVLA-o1，基于统一 Vision Language-Action 的 Omni 架构，在单一Transformer 中联合建模感知、推理与控制。

主流 VLA 方案的三大局限性（图二）：
①3D 视觉 / 语言与动作对齐慢，延迟高
②长尾场景数据无法规模化，真实世界长尾场景数据采集成本高、覆盖不全，模型泛化差
③VLA 模型参数量大、推理重，车端算力无法支撑

那么理想的VLA是怎么解决这些的呢？（图三）
多模态输入——MindVLA-o1-MoE（快慢思考）——Action Output（输出轨迹）

※多模态输入采用了3D 视觉基座，让其自主学习 3D 空间语义，减少了大量的人工标注数据，模态在同一表示空间获得更高效率和更强泛化能力

※新增了一个Latent World Model（潜在的世界模型），将输入图像编码为潜在 Token再重构，去模拟未来一下秒的关键画面，比如这一帧进去的图片是“右侧车辆偏压线”（To），模型预判 “右侧车辆会强行加塞”，并推理两种动作：直接行驶 → 碰撞（To+1）。立即左避 → 安全（T'o+1），去提前选择安全动作，解决长尾场景下的决策难题（图五）

※多模态输入进模型以后，会将语言指令会通过3.2B的MOE模型，做 CoT（思维链）推理，同时将其他视觉特征则生成动作 Token，最后生成稳定轨迹，减少了推理时间

※构建强化学习框架让模型在真实和模拟环境中学习探索，反补世界模型做技术升级，优化驾驶策略（图七）。

※面向端侧大模型的软硬件框架，提升端侧 VLA 模型设计和部署效率,换句话说Orin和Thor还会有一定的升级（图八）

自动驾驶系统逐渐演化成通用物理世界基础模型，可控制车辆、机器人和机械臂，还能生成具身智能训练数据，未来将驱动各种物理系统，具身 AI 将走进人们生活。
#懒博小课堂##微博新知##理想L9#

发布于浙江