最近的理想 AI Talk 第二季上，VLA 是核心话题。2025 年被称为「VLA 上车元年」，今天就结合李想在 AI Talk 中的输出，聊聊什么是 VLA、VLA 能带来什么、以及要做 VLA 的几家车企和供应商现在进展如何了？李想原本计划今年年底做出 VLA 模型，结果今年 3 月就发布了MindVLA。他说：「DeepSeek 一开源

最近的理想 AI Talk 第二季上，VLA 是核心话题。2025 年被称为「VLA 上车元年」，今天就结合李想在 AI Talk 中的输出，聊聊什么是 VLA、VLA 能带来什么、以及要做 VLA 的几家车企和供应商现在进展如何了？

李想原本计划今年年底做出 VLA 模型，结果今年 3 月就发布了MindVLA。他说：「DeepSeek 一开源，我们就加速了 9 个月的时间」。

给大家列了几家的时间表，供大家参考：

- 理想：计划在 2025 年 7 月与纯电 SUV 理想 i8 同步发布 VLA，并在 2026 年实现量产；

- 元戎启行：今年内将基于英伟达 Thor，推出超 5 款搭载元戎启行 VLA 模型的 AI 汽车，还计划计划将 VLA 模型应用于 Robotaxi 业务；

- 小米：聘请了一位曾就职于英国 AI 独角兽公司 Wayve 的主任科学家，专门负责带领 VLA 团队；

- 小鹏：提到的车端模型 XVLA，也是一种衍生的 VLA 模型；

- 吉利：正在积极布局 VLA 技术，今年 3 月发布的「千里浩瀚」智驾方案，计划在高阶方案上率先落地 VLA；

- Waymo：不久前基于 Gemini 打造的 EMMA，也被视为 VLA 的具体应用方式；

- 华为：没有直接表明在研发 WLA，但今年 4 月发布的 WE+WA 架构中，WA（世界行为模型）指的是一个原生多模态的车端大模型，可通过视觉、听觉、触觉等多维度输入，直接输出控车轨迹和环境理解，与 VLA 的思路不谋而合。

VLA 的全称是 Vision-Language-Action，是视觉-语言-动作模型，最早是在机器人领域出现的，能够让机器人或自动驾驶系统通过理解视觉信息和语言指令，直接生成可执行的动作。

简单来说，VLA 就是一个能听懂人话、看懂图像并结合两种信息行动的模型，让人无需通过特定语音、文字指令或按钮，而是通过自然语言去控制包括机器人、汽车在内的智能体，能够独立执行任务、承担责任。

用李想的话说，辅助驾驶领域的 VLA 是一个司机大模型，能像人类的司机一样去工作。

VLA 可以被视为对端到端范式的进一步应用，能再度拉高辅助驾驶的能力上限，让人看到全自动驾驶的希望。

今年 3 月发布 MindVLA 大模型后，李想前天晚上也进一步放出了 VLA 的另外几项功能。在理想发布的演示视频中，驾驶员可以直接用语音说「去星巴克」，并且语音控制汽车的行动，也可以让 VLA 自主找车位、根据图片来判断要接的人的地点等等。

忍不住想象一些更实用或者更无用的场景用上 VLA 会是什么样子。实用主义的角度，开车时身体不适时可以告诉车辆「带我去最近的医院」，接路痴朋友时可以让车根据朋友拍的照片就能找到他；「无用」主义的角度，下班后不想立马回家可以说「在附近兜兜风」而无需设置地点，旅行时可以让车「围着前面这片湖转一圈」。

大家最期待 VLA 上车后，能给驾驶场景带来怎样的体验？

下面这篇文章有关于李想在 AI Talk 中输出的关于 VLA 内容的详细解读，感兴趣的朋友可以看看。http://t.cn/A6dsZqMa

#42how##新能源汽车##理想汽车#

发布于上海