小米发布OneVL论文

#技术巡猎# 小米最近有一篇 arXiv 预印本论文，题目叫《OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation》。

这篇不是讲某个量产功能，而是在 VLA这条路线下，解决一个很具体的问题：自动驾驶大模型要不要“边想边说”。

现在很多自动驾驶大模型会引入 CoT，也就是让模型先生成一段推理过程，再输出轨迹。好处是可解释，坏处也明显：慢。车在路上不能每次决策前都长篇大论想一遍。
OneVL 的思路是，把这个推理过程压缩进 latent token。

论文里的架构图很直观：训练时，它一边让模型还原语言推理，一边让模型预测未来画面；但真正推理时，这两个辅助解码器会被丢掉，模型不再逐字输出一长段 reasoning，而是用压缩后的内部表征直接给出轨迹。

我觉得这里最有意思的一点是：VLA 也可以“事后解释”了。也就是说，现在常见的VLA量产系统在运行时，可以在中控屏上给你解释为什么。将来，用OneVL可能就不给你解释了，最多给你“事后解释”，因为这样的辅助驾驶表现延迟更低、性能更好。

传统理解里，想要解释，就得先把推理过程说出来；但 OneVL 更像是，模型先在内部完成压缩推理，事后再从 latent 里还原出语言解释和未来画面。这和人开车有点像：你不会每次变道前都在脑子里念一段完整作文，但事后大概能说清楚自己为什么这么开。

论文里的可视化案例也挺适合看这个逻辑：比如施工区、雨天路口、行人过街这些场景，它不只是画一条轨迹，还会给出“为什么这样走”的解释。这个解释不一定代表真实量产系统会这么说话，但它说明 VLA 路线正在努力把“看见世界”“理解变化”“输出动作”放进同一个框架里。

当然，边界也要说清楚。这不是顶会正式论文，目前是 arXiv 预印本；也不是小米量产智驾能力的证明，论文结果主要来自 NAVSIM、ROADWork、Impromptu、Alpamayo-R1 等 benchmark。它更适合被理解成一个技术路线信号：VLA 自动驾驶正在从“会不会说推理过程”，走向“能不能把对未来世界的理解压缩成可实时部署的内部表征”。#小米汽车##VLA##智能驾驶#

发布于上海