小米打通智驾和机器人

#小米打通智驾和机器人##首个智驾具身统一基座来了#

小米把自动驾驶和机器人“合体”了，还开源了全球首个统一基座模型MiMo-Embodied。

以前教AI开车和教机器人干家务是两码事，开车要看红绿灯、避让行人，属于室外高速场景；机器人要拿杯子、扫地，属于室内精细操作。

这两类数据通常很难互通，导致AI要么只会开车，要么只会干活。

但小米团队想了个招，用一套架构把这两个领域打通了。这个MiMo-Embodied模型主要解决了这么几个问题：

1.打破领域隔阂

它基于MiMo-VL架构，把视觉信号，无论是路况还是家具，都翻译成大模型能听懂的语言。这让同一个“大脑”既能理解前面有车要刹车，也能理解桌上有杯水要拿。

2.四阶段特训

为了让它什么都会，团队给它安排了进阶课。先学通用知识，再专攻机器人操作，接着学自动驾驶，最后通过思维链（CoT）和强化学习（RL）来训练逻辑推理能力。这就好比让一个人学完基础课，再去考驾照和职业资格证。

3.实战效果强悍

在29个评测基准上，这个模型都拿了高分。不仅能处理复杂的路口转弯、超车，在家庭环境里找东西、拿东西的能力甚至比GPT-4o还强。

项目带头人是小米智驾首席科学家陈龙，之前在Wayve和Lyft也是搞端到端模型的，算是老本行了。

目前这套东西已经开源，论文和代码都能在GitHub上找到。

我们距离那种既能开车接你下班，回家还能给你做饭的通用机器人，又近了一步。

论文链接：arxiv.org/abs/2511.16518
GitHub：github.com/XiaomiMiMo/MiMo-Embodied