#技术巡猎# 小米最近有一篇 arXiv 预印本论文,题目叫《OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation》。
这篇不是讲某个量产功能,而是在 VLA这条路线下,解决一个很具体的问题:自动驾驶大模型要不要“边想边说”。
现在很多自动驾驶大模型会引入 CoT,也就是让模型先生成一段推理过程,再输出轨迹。好处是可解释,坏处也明显:慢。车在路上不能每次决策前都长篇大论想一遍。
OneVL 的思路是,把这个推理过程压缩进 latent token。
论文里的架构图很直观:训练时,它一边让模型还原语言推理,一边让模型预测未来画面;但真正推理时,这两个辅助解码器会被丢掉,模型不再逐字输出一长段 reasoning,而是用压缩后的内部表征直接给出轨迹。
我觉得这里最有意思的一点是:VLA 也可以“事后解释”了。也就是说,现在常见的VLA量产系统在运行时,可以在中控屏上给你解释为什么。将来,用OneVL可能就不给你解释了,最多给你“事后解释”,因为这样的辅助驾驶表现延迟更低、性能更好。
传统理解里,想要解释,就得先把推理过程说出来;但 OneVL 更像是,模型先在内部完成压缩推理,事后再从 latent 里还原出语言解释和未来画面。这和人开车有点像:你不会每次变道前都在脑子里念一段完整作文,但事后大概能说清楚自己为什么这么开。
论文里的可视化案例也挺适合看这个逻辑:比如施工区、雨天路口、行人过街这些场景,它不只是画一条轨迹,还会给出“为什么这样走”的解释。这个解释不一定代表真实量产系统会这么说话,但它说明 VLA 路线正在努力把“看见世界”“理解变化”“输出动作”放进同一个框架里。
当然,边界也要说清楚。这不是顶会正式论文,目前是 arXiv 预印本;也不是小米量产智驾能力的证明,论文结果主要来自 NAVSIM、ROADWork、Impromptu、Alpamayo-R1 等 benchmark。它更适合被理解成一个技术路线信号:VLA 自动驾驶正在从“会不会说推理过程”,走向“能不能把对未来世界的理解压缩成可实时部署的内部表征”。#小米汽车##VLA##智能驾驶#
