理想发布自动驾驶新模型

理想在GTC上发的MindVLA-o1，我觉得最值得聊的不是"自动驾驶又升级了"这么简单，而是它开始把车从"会执行指令的机器"往"能理解真实世界的智能体"去推。
李想的这个，我觉得观点说到点子上了。现在所有具身AI训练，本质上都是"坐在电脑前看视频学开车"，然后直接上路。听起来有点荒唐，但细想真的是这样，现在绝大多数视觉模型吃的都是2D图像，能识别画面，但根本没有真正理解过三维空间是什么感觉。人类小时候接球接不住，扔几百次之后眼睛没变，但对距离和球速的判断越来越准，这是在3D空间里真实训练出来的，不是看视频看会的。
理想这次的3D ViT就是想补这个课，用激光雷达点云引导视觉模型在三维空间里做预训练，同时加了隐空间世界模型，让系统能在"脑子里"提前模拟接下来几秒会发生什么再做决策，不只是看见，更是理解和预判。然后更有意思的是，这套VLA模型压根不只是为自动驾驶设计的，同一套东西可以控车、可以控机械臂、可以驱动各种物理系统。
所以与其说理想在做自动驾驶，不如说他们在用车这个场景练手，自动驾驶可能只是物理AI真正上路前的第一站。
#李想称机器人也用VLA##理想全能辅助驾驶来了##理想发布下一代自动驾驶基础模型#

发布于浙江