小米VLA进展及陈龙观点

昨天分享了小米端到端的研发故事（http://t.cn/AXLNVWHY），今天继续写小米VLA的进展，以及陈龙博士如何看待VA与VLA之争。

陈龙博士在2025年4月正式加入小米，此前在自动驾驶独角兽公司 Wayve 担任核心科研职务。我们最早了解的视觉语言自动驾驶，也是从Wayve的“Lingo”开始的。他也是影响Lingo落地论文《Driving with LLMs》的第一作者。

对于VLA的本质，陈龙给出了自己的解释：语言（Language）与视觉（Vision），并非简单的“转译”，而是深度的“增强”。

视觉是基础输入，而语言模态的引入，能够对视觉信息进行更高维度的描述与逻辑推理。二者是相加的协同关系，而非转译和替代。

陈龙认为，传统的端到端模型能够解决 90% 的常规驾驶问题，剩下的 10%长尾场景（Corner Cases），则是 VLA 的主战场。 VLA 的核心优势不仅在于可解释性，更在于它拥有“通识”。面对从未见过的场景，它能通过逻辑推理举一反三，像人类一样做出正确决策。

在架构设计上，小米采用了 “VLA + 世界模型”的协同模式：世界模型是“模拟器”与“预测机”：它负责预测未来，构建高拟真的虚拟环境；VLA 是“大脑”：它是一个具备强认知能力的端到端模型。

二者配合，既可以用世界模型生成的虚拟环境来训练 VLA 大脑，也可以将世界模型的预测能力融入 VLA，大幅提升决策的前瞻性。

为了支撑这一路径，小米自研了具身基座模型。不同于套用开源模型，小米从 LLM的预训练阶段就开始介入。这样做是为了从源头筛选高质量数据，确保驾驶行为的安全与可信；同时融入机器人与驾驶的双重任务数据，特化增强 3D 空间感知能力。

我个人理解，小米做基座模型并非平地起高楼，例如小米有自己的大语言模型MiMo，感兴趣的朋友，可以搜索一下。

小米在辅助驾驶/自动驾驶的技术投入、资源投入是超规格的，你很难在主机厂看到辅助驾驶多条主线的并行与储备。

无论如何，任何技术路线，只有实现落地和交付才有价值，小米也只有交付好用的版本，才能让外界信服。

发布于北京