3月17日,基座模型负责人詹锟在2026GTC大会上发布了新一代自动驾驶基础模型MindVLA-o1
咱们先大概了解一下这套模型:
理想 3D ViT:
从视频流直接还原完整 3D 空间、位置、语义、运动
用激光雷达做几何提示,融合语义 + 3D 感知
用前馈 3DGS 拆分静态 / 动态物体,预测未来状态
类比人类:先补好 “0 6 岁空间认知”,再学开车。
多模态思考:不只看,还会 “想” 和 “推演”
不只靠语言逻辑,还要空间想象 + 未来预测
先理解现在,再推演接下来会发生什么
这样说吧,以前很多自动驾驶,说白了就是看2D视频学开车,跟我们对着屏幕学开车再上路一样,容易出错。
而MindVLA-o1的核心就是3D ViT+多模态思考,既能还原真实的3D空间,知道哪里有东西、能不能撞,还能预测未来路况,相当于给车装了个“人类大脑”,会“思考了”!它不光能看,还会想、预判。
当然这背后离不开算力支撑,理想马赫100芯片算力暴涨,才能扛住3D模型的高计算量。马赫 100 在标准矩阵乘算力上较上一代居然提升约 3 倍!
最让我惊讶的是这套模型不只是用来开车的!同一套VLA模型、数据系统,既能控制汽车,还能控制机器人,可以用来训练不同形态的物理智能体。自动驾驶居然只是个起点!
这次也透露出了理想的目标很明确:打造“硅基人”!
让AI像人类一样有感知、会行动、能思考。现在这套AI框架已经成型,从数据采集到模型训练,再到仿真测试,一套打通,未来还能用到各种物理设备上。
现在看来,我终于明白厂长之前为什么说即将到来的全新理想L9是具身智能机器人的开山之作了!
#李想称机器人也用VLA##理想全能辅助驾驶来了##理想发布下一代自动驾驶基础模型#
发布于 江苏
