小米发布自动驾驶模型

这个厉害了。

小米正式发布 Xiaomi OneVL 自动驾驶模型，并且把模型权重和训练，推理代码全面开源。

这是业内首个统一了 VLA（视觉-语言-动作）、世界模型与潜空间推理三项关键技术的模型，在推理，规划等多个主流测试基准上，全面刷新了潜在推理方法的性能上限。

核心亮点是以下三方面：

1、【双模态隐式 Token】打破传统大模型边吐字边思考的明文逻辑，让模型用自己的内部语言思考。视觉 Token 负责理解物理世界的因果关系，语言 Token 负责处理驾驶意图。两者结合，让模型给出结论前就已经在内部理清了逻辑。

2、【双辅助解码器】在训练阶段给模型施加双重考核，一是通过视觉解码器让它预测未来 0.5s / 1s 画面，让其具备世界模型的预测能力，二是通过语言解码器让它翻译出人类能看懂的思维链，保证决策的可解释性，这两个过程为模型提供了极强的监督信号。

3、【预填充式一步推理】这是最核心的工程优化，在真正上车/部署推理时，直接卸载掉用于训练的两个解码器。将之前训练好的隐式 Token 直接并行塞入（预填充）上下文，一步到位得出结论，实现了零额外负担，比传统思维链快 2.3 倍。

传送门：Xiaomi-Embodied-Intelligence.github.io/OneVL

#小米发布自动驾驶模型##HOW I AI##科技先锋官#

发布于北京