深夜！深度解读-为什么理想MindVLA-o1｜3D ViT才是下一代智驾的核心底气？🔥3月17日，理想汽车在2026GTC大会发布MindVLA-o1自动驾驶基座模型，很多人只看到智驾升级，却没读懂3D ViT+多模态思考的真正价值——这不是简单的技术迭代，是理想布局物理AI的关键一步。为什么物理世界AI进展缓慢？核心

深夜！深度解读-为什么理想MindVLA-o1｜3D ViT才是下一代智驾的核心底气？🔥
3月17日，理想汽车在2026GTC大会发布MindVLA-o1自动驾驶基座模型，很多人只看到智驾升级，却没读懂3D ViT+多模态思考的真正价值——这不是简单的技术迭代，是理想布局物理AI的关键一步。

为什么物理世界AI进展缓慢？核心是跳过了“3D空间预训练”这一步，就像李想自己所说，现在的具身AI都在“看2D视频学开车”，而人类能开好车，本质是完成了0-6岁的3D空间认知训练。

理想的3D ViT，直接打破传统困境：不做BEV的“拍扁场景”，不做OCC的“无语义感知”，通过视频流还原完整3D空间、点云、语义，搭配激光雷达点云提示，让车真正“看懂”三维世界，而非“看图开车”。

更关键的是多模态思考+通用VLA模型：融合语言推理与空间推演，能预测未来场景；同一套模型既能控车，也能控机器人，正如李想所言，自动驾驶只是物理AI的起点。

而李想对AI的理解更通透：AI是杠杆，专业积累越深，放大效应越强。对理想而言，10万亿汽车市场+机器人、算力等广阔赛道，不需要AI替代人，而是用AI赋能，让3万人撬动万亿收入。

从3D ViT到四大具身智能框架，理想的野心从来不是做更好的智驾，而是构建硅基生命体的躯干与大脑，抢占物理AI的未来。#李想称机器人也用VLA# #理想发布下一代自动驾驶基础模型#

发布于天津