最近的理想 AI Talk 第二季上,VLA 是核心话题。2025 年被称为「VLA 上车元年」,今天就结合李想在 AI Talk 中的输出,聊聊什么是 VLA、VLA 能带来什么、以及要做 VLA 的几家车企和供应商现在进展如何了?
李想原本计划今年年底做出 VLA 模型,结果今年 3 月就发布了MindVLA。他说:「DeepSeek 一开源,我们就加速了 9 个月的时间」。
给大家列了几家的时间表,供大家参考:
- 理想:计划在 2025 年 7 月与纯电 SUV 理想 i8 同步发布 VLA,并在 2026 年实现量产;
- 元戎启行:今年内将基于英伟达 Thor,推出超 5 款搭载元戎启行 VLA 模型的 AI 汽车,还计划计划将 VLA 模型应用于 Robotaxi 业务;
- 小米:聘请了一位曾就职于英国 AI 独角兽公司 Wayve 的主任科学家,专门负责带领 VLA 团队;
- 小鹏:提到的车端模型 XVLA,也是一种衍生的 VLA 模型;
- 吉利:正在积极布局 VLA 技术,今年 3 月发布的 「千里浩瀚」智驾方案,计划在高阶方案上率先落地 VLA;
- Waymo:不久前基于 Gemini 打造的 EMMA,也被视为 VLA 的具体应用方式;
- 华为:没有直接表明在研发 WLA,但今年 4 月发布的 WE+WA 架构中,WA(世界行为模型)指的是一个原生多模态的车端大模型,可通过视觉、听觉、触觉等多维度输入,直接输出控车轨迹和环境理解,与 VLA 的思路不谋而合。
VLA 的全称是 Vision-Language-Action,是视觉-语言-动作模型,最早是在机器人领域出现的,能够让机器人或自动驾驶系统通过理解视觉信息和语言指令,直接生成可执行的动作。
简单来说,VLA 就是一个能听懂人话、看懂图像并结合两种信息行动的模型,让人无需通过特定语音、文字指令或按钮,而是通过自然语言去控制包括机器人、汽车在内的智能体,能够独立执行任务、承担责任。
用李想的话说,辅助驾驶领域的 VLA 是一个司机大模型,能像人类的司机一样去工作。
VLA 可以被视为对端到端范式的进一步应用,能再度拉高辅助驾驶的能力上限,让人看到全自动驾驶的希望。
今年 3 月发布 MindVLA 大模型后,李想前天晚上也进一步放出了 VLA 的另外几项功能。在理想发布的演示视频中,驾驶员可以直接用语音说「去星巴克」,并且语音控制汽车的行动,也可以让 VLA 自主找车位、根据图片来判断要接的人的地点等等。
忍不住想象一些更实用或者更无用的场景用上 VLA 会是什么样子。实用主义的角度,开车时身体不适时可以告诉车辆「带我去最近的医院」,接路痴朋友时可以让车根据朋友拍的照片就能找到他;「无用」主义的角度,下班后不想立马回家可以说「在附近兜兜风」而无需设置地点,旅行时可以让车「围着前面这片湖转一圈」。
大家最期待 VLA 上车后,能给驾驶场景带来怎样的体验?
下面这篇文章有关于李想在 AI Talk 中输出的关于 VLA 内容的详细解读,感兴趣的朋友可以看看。http://t.cn/A6dsZqMa
#42how##新能源汽车##理想汽车#
