詹锟在GTC上分享了理想目前智能驾驶方面的进展,最关键的一点就是最新的VLA模型——MindVLA-o1,基于统一 Vision Language-Action 的 Omni 架构,在单一Transformer 中联合建模感知、推理与控制。
主流 VLA 方案的三大局限性(图二):
①3D 视觉 / 语言与动作对齐慢,延迟高
②长尾场景数据无法规模化,真实世界长尾场景数据采集成本高、覆盖不全,模型泛化差
③VLA 模型参数量大、推理重,车端算力无法支撑
那么理想的VLA是怎么解决这些的呢?(图三)
多模态输入——MindVLA-o1-MoE(快慢思考)——Action Output(输出轨迹)
※多模态输入采用了3D 视觉基座,让其自主学习 3D 空间语义,减少了大量的人工标注数据,模态在同一表示空间获得更高效率和更强泛化能力
※新增了一个Latent World Model(潜在的世界模型),将输入图像编码为潜在 Token再重构,去模拟未来一下秒的关键画面,比如这一帧进去的图片是“右侧车辆偏压线”(To),模型预判 “右侧车辆会强行加塞”,并推理两种动作:直接行驶 → 碰撞(To+1)。立即左避 → 安全(T'o+1),去提前选择安全动作,解决长尾场景下的决策难题(图五)
※多模态输入进模型以后,会将语言指令会通过3.2B的MOE模型,做 CoT(思维链)推理,同时将其他视觉特征则生成动作 Token,最后生成稳定轨迹,减少了推理时间
※构建强化学习框架让模型在真实和模拟环境中学习探索,反补世界模型做技术升级,优化驾驶策略(图七)。
※面向端侧大模型的软硬件框架,提升端侧 VLA 模型设计和部署效率,换句话说Orin和Thor还会有一定的升级(图八)
自动驾驶系统逐渐演化成通用物理世界基础模型,可控制车辆、机器人和机械臂,还能生成具身智能训练数据,未来将驱动各种物理系统,具身 AI 将走进人们生活。
#懒博小课堂##微博新知##理想L9#
