理想汽车最近发布了新一代自动驾驶基础模型MindVLA-o1,其实核心就一件事:让车真正看懂3D世界。
以前的主流方案,要么是BEV,把场景拍扁成2D,高度信息全丢;要么是OCC,虽然是3D,但只知道“那儿有东西”,不知道是啥、能不能碰。说到底,还是都缺少了对真实物理空间的理解。
理想的解法是3D ViT+多模态思考,通过视频流直接还原完整的三维信息:位置、点云、语义全都有。为此,李想还打了个比方:小孩一开始接不住球,多扔几次,大脑就对距离、速度有了直觉,眼睛没变,判断却越来越准。
AI也得先补上这堂“0-6岁”的空间认知课,才能真把车开好。[并不简单]#理想全能辅助驾驶来了#
发布于 山东
