欧巴聊AI 26-05-13 23:20
微博认证:AI博主

这个厉害了。

小米正式发布 Xiaomi OneVL 自动驾驶模型,并且把模型权重和训练,推理代码全面开源。

这是业内首个统一了 VLA(视觉-语言-动作)、世界模型与潜空间推理三项关键技术的模型,在推理,规划等多个主流测试基准上,全面刷新了潜在推理方法的性能上限。

核心亮点是以下三方面:

1、【双模态隐式 Token】打破传统大模型边吐字边思考的明文逻辑,让模型用自己的内部语言思考。视觉 Token 负责理解物理世界的因果关系,语言 Token 负责处理驾驶意图。两者结合,让模型给出结论前就已经在内部理清了逻辑。

2、【双辅助解码器】在训练阶段给模型施加双重考核,一是通过视觉解码器让它预测未来 0.5s / 1s 画面,让其具备世界模型的预测能力,二是通过语言解码器让它翻译出人类能看懂的思维链,保证决策的可解释性,这两个过程为模型提供了极强的监督信号。

3、【预填充式一步推理】这是最核心的工程优化,在真正上车/部署推理时,直接卸载掉用于训练的两个解码器。将之前训练好的隐式 Token 直接并行塞入(预填充)上下文,一步到位得出结论,实现了零额外负担,比传统思维链快 2.3 倍。

传送门:Xiaomi-Embodied-Intelligence.github.io/OneVL

#小米发布自动驾驶模型##HOW I AI##科技先锋官#

发布于 北京