电动知士大雨 25-11-25 21:17
微博认证:汽车博主

昨天分享了小米端到端的研发故事(http://t.cn/AXLNVWHY),今天继续写小米VLA的进展,以及陈龙博士如何看待VA与VLA之争。

陈龙博士在2025年4月正式加入小米,此前在自动驾驶独角兽公司 Wayve 担任核心科研职务。我们最早了解的视觉语言自动驾驶,也是从Wayve的“Lingo”开始的。他也是影响Lingo落地论文《Driving with LLMs》的第一作者。

对于VLA的本质,陈龙给出了自己的解释:语言(Language)与 视觉(Vision),并非简单的“转译”,而是深度的“增强”。

视觉是基础输入,而语言模态的引入,能够对视觉信息进行更高维度的描述与逻辑推理。二者是相加的协同关系,而非转译和替代。

陈龙认为,传统的端到端模型能够解决 90% 的常规驾驶问题,剩下的 10%长尾场景(Corner Cases),则是 VLA 的主战场。 VLA 的核心优势不仅在于可解释性,更在于它拥有“通识”。面对从未见过的场景,它能通过逻辑推理举一反三,像人类一样做出正确决策。

在架构设计上,小米采用了 “VLA + 世界模型”的协同模式:世界模型是“模拟器”与“预测机”: 它负责预测未来,构建高拟真的虚拟环境;VLA 是“大脑”: 它是一个具备强认知能力的端到端模型。

二者配合,既可以用世界模型生成的虚拟环境来训练 VLA 大脑,也可以将世界模型的预测能力融入 VLA,大幅提升决策的前瞻性。

为了支撑这一路径,小米自研了具身基座模型。不同于套用开源模型,小米从 LLM的预训练阶段就开始介入。这样做是为了从源头筛选高质量数据,确保驾驶行为的安全与可信;同时融入机器人与驾驶的双重任务数据,特化增强 3D 空间感知能力。

我个人理解,小米做基座模型并非平地起高楼,例如小米有自己的大语言模型MiMo,感兴趣的朋友,可以搜索一下。

小米在辅助驾驶/自动驾驶的技术投入、资源投入是超规格的,你很难在主机厂看到辅助驾驶多条主线的并行与储备。

无论如何,任何技术路线,只有实现落地和交付才有价值,小米也只有交付好用的版本,才能让外界信服。

发布于 北京