#小米打通智驾和机器人##首个智驾具身统一基座来了#
小米把自动驾驶和机器人“合体”了,还开源了全球首个统一基座模型MiMo-Embodied。
以前教AI开车和教机器人干家务是两码事,开车要看红绿灯、避让行人,属于室外高速场景;机器人要拿杯子、扫地,属于室内精细操作。
这两类数据通常很难互通,导致AI要么只会开车,要么只会干活。
但小米团队想了个招,用一套架构把这两个领域打通了。这个MiMo-Embodied模型主要解决了这么几个问题:
1.打破领域隔阂
它基于MiMo-VL架构,把视觉信号,无论是路况还是家具,都翻译成大模型能听懂的语言。这让同一个“大脑”既能理解前面有车要刹车,也能理解桌上有杯水要拿。
2.四阶段特训
为了让它什么都会,团队给它安排了进阶课。先学通用知识,再专攻机器人操作,接着学自动驾驶,最后通过思维链(CoT)和强化学习(RL)来训练逻辑推理能力。这就好比让一个人学完基础课,再去考驾照和职业资格证。
3.实战效果强悍
在29个评测基准上,这个模型都拿了高分。不仅能处理复杂的路口转弯、超车,在家庭环境里找东西、拿东西的能力甚至比GPT-4o还强。
项目带头人是小米智驾首席科学家陈龙,之前在Wayve和Lyft也是搞端到端模型的,算是老本行了。
目前这套东西已经开源,论文和代码都能在GitHub上找到。
我们距离那种既能开车接你下班,回家还能给你做饭的通用机器人,又近了一步。
论文链接:arxiv.org/abs/2511.16518
GitHub:github.com/XiaomiMiMo/MiMo-Embodied
