理想在GTC上发的MindVLA-o1,我觉得最值得聊的不是"自动驾驶又升级了"这么简单,而是它开始把车从"会执行指令的机器"往"能理解真实世界的智能体"去推。
李想的这个,我觉得观点说到点子上了。现在所有具身AI训练,本质上都是"坐在电脑前看视频学开车",然后直接上路。听起来有点荒唐,但细想真的是这样,现在绝大多数视觉模型吃的都是2D图像,能识别画面,但根本没有真正理解过三维空间是什么感觉。人类小时候接球接不住,扔几百次之后眼睛没变,但对距离和球速的判断越来越准,这是在3D空间里真实训练出来的,不是看视频看会的。
理想这次的3D ViT就是想补这个课,用激光雷达点云引导视觉模型在三维空间里做预训练,同时加了隐空间世界模型,让系统能在"脑子里"提前模拟接下来几秒会发生什么再做决策,不只是看见,更是理解和预判。然后更有意思的是,这套VLA模型压根不只是为自动驾驶设计的,同一套东西可以控车、可以控机械臂、可以驱动各种物理系统。
所以与其说理想在做自动驾驶,不如说他们在用车这个场景练手,自动驾驶可能只是物理AI真正上路前的第一站。
#李想称机器人也用VLA##理想全能辅助驾驶来了##理想发布下一代自动驾驶基础模型#
发布于 浙江
