小米机器人模型开源

#雷军公布小米机器人最新进展# 原文（http://t.cn/AXthez36）专有名词挺多的，我给大家翻译成大白话。

小米这次开源的 Xiaomi-Robotics-0 是一款机器人专用的VLA大模型（视觉+语言+动作一体），核心解决了传统机器人“脑子懂但手脚慢、动作僵”的问题：简单说就是给机器人装了“会听懂人话的大脑”+“手脚灵活的小脑”，47亿参数的模型能在普通消费级显卡上实时运行，机器人听指令做动作时不卡顿、反应快，还能灵活处理积木（硬的）、毛巾（软的）这类不同材质的东西，叠毛巾、拆积木这些复杂活都能流畅完成。

用“大脑（VLM）”理解人类模糊指令（比如“叠好毛巾”）和视觉画面，用“小脑（DiT）”生成连贯的动作块，再通过异步推理、特殊注意力机制，让机器人不会因为计算延迟卡壳，还能实时应对环境变化（比如毛巾歪了能及时调整），同时训练时还保证了机器人“学干活不丢常识”，能识别物体、做简单推理。

这是什么水平呢？发展速度之快，像我这种每天关注小米新闻的博主都感到陌生 ...

Xiaomi-Robotics-0 就是今天机器人基座模型的天花板，多项指标刷新行业最优（SOTA）：

1. 仿真测试无敌手：在LIBERO、CALVIN、SimplerEnv三大主流机器人仿真测试的所有榜单中，对比30种现有模型，全部拿下第一；
2. 真机表现超行业标杆：在双臂机器人上的实际操作，比行业现有方案更流畅，长周期复杂任务（叠毛巾、拆积木）的手眼协调性更优，能兼顾刚性/柔性物体处理；
3. 独有优势：传统VLA模型要么“懂动作不会理解”，要么“会理解动作卡顿”，这款模型同时保留了多模态理解能力和高性能实时执行能力，这是此前行业模型做不到的；
4. 对比国际大厂：和Google RT-2、Figue AI Helix等国际顶尖VLA模型处于同一梯队，在实时性、动作流畅性、低成本部署上甚至有优势，是目前具身智能领域的行业标杆级成果。

简单说，这款模型是目前机器人领域“又聪明又灵活”的最优解之一，也是国产机器人大模型在国际上的一次重要突破。👏👏

#小米发布机器人基座模型#

发布于广东