深夜!深度解读-为什么理想MindVLA-o1|3D ViT才是下一代智驾的核心底气?🔥
3月17日,理想汽车在2026GTC大会发布MindVLA-o1自动驾驶基座模型,很多人只看到智驾升级,却没读懂3D ViT+多模态思考的真正价值——这不是简单的技术迭代,是理想布局物理AI的关键一步。
为什么物理世界AI进展缓慢?核心是跳过了“3D空间预训练”这一步,就像李想自己所说,现在的具身AI都在“看2D视频学开车”,而人类能开好车,本质是完成了0-6岁的3D空间认知训练。
理想的3D ViT,直接打破传统困境:不做BEV的“拍扁场景”,不做OCC的“无语义感知”,通过视频流还原完整3D空间、点云、语义,搭配激光雷达点云提示,让车真正“看懂”三维世界,而非“看图开车”。
更关键的是多模态思考+通用VLA模型:融合语言推理与空间推演,能预测未来场景;同一套模型既能控车,也能控机器人,正如李想所言,自动驾驶只是物理AI的起点。
而李想对AI的理解更通透:AI是杠杆,专业积累越深,放大效应越强。对理想而言,10万亿汽车市场+机器人、算力等广阔赛道,不需要AI替代人,而是用AI赋能,让3万人撬动万亿收入。
从3D ViT到四大具身智能框架,理想的野心从来不是做更好的智驾,而是构建硅基生命体的躯干与大脑,抢占物理AI的未来。#李想称机器人也用VLA# #理想发布下一代自动驾驶基础模型#
发布于 天津
