3月17日,在2026GTC大会上,理想汽车基座模型负责人詹锟发布下一代自动驾驶模型MindVLA-o1,这款模型搭载3D ViT+多模态思考能力,让车辆真正具备理解3D空间的能力。李想表示,自动驾驶只是物理 AI 的起点,这套基座模型不只是为自动驾驶设计的。同一套VLA基座模型,能开车,也能控制机器人,它正在逐渐演化成一个通用的物理世界智能体。
针对物理世界AI进展缓慢的问题,今日李想指出核心是AI预训练缺失3D空间认知,多基于2D视频训练如同 “看视频学开车”,然后再到路上去开车。而 MindVLA-o1的3D ViT 融合视觉和激光雷达数据,还原完整3D空间信息,马赫100芯片提供算力支撑;多模态思考则融合语言推理与空间推演,还能预测未来场景变化。
据悉,今年年中3D ViT将与多模态思考能力结合,让模型拥有更完整的3D认知。#李想称机器人也用VLA##李想回应AI时代的焦虑# http://t.cn/AXfqtOs2
