懒酱的日记本 26-02-12 13:26
微博认证:数码博主 微博原创视频博主 头条文章作者

#雷军公布小米机器人最新进展# 原文(http://t.cn/AXthez36)专有名词挺多的,我给大家翻译成大白话。

小米这次开源的 Xiaomi-Robotics-0 是一款机器人专用的VLA大模型(视觉+语言+动作一体),核心解决了传统机器人“脑子懂但手脚慢、动作僵”的问题:简单说就是给机器人装了“会听懂人话的大脑”+“手脚灵活的小脑”,47亿参数的模型能在普通消费级显卡上实时运行,机器人听指令做动作时不卡顿、反应快,还能灵活处理积木(硬的)、毛巾(软的)这类不同材质的东西,叠毛巾、拆积木这些复杂活都能流畅完成。

用“大脑(VLM)”理解人类模糊指令(比如“叠好毛巾”)和视觉画面,用“小脑(DiT)”生成连贯的动作块,再通过异步推理、特殊注意力机制,让机器人不会因为计算延迟卡壳,还能实时应对环境变化(比如毛巾歪了能及时调整),同时训练时还保证了机器人“学干活不丢常识”,能识别物体、做简单推理。

这是什么水平呢?发展速度之快,像我这种每天关注小米新闻的博主都感到陌生 ...

Xiaomi-Robotics-0 就是今天机器人基座模型的天花板,多项指标刷新行业最优(SOTA):

1. 仿真测试无敌手:在LIBERO、CALVIN、SimplerEnv三大主流机器人仿真测试的所有榜单中,对比30种现有模型,全部拿下第一;
2. 真机表现超行业标杆:在双臂机器人上的实际操作,比行业现有方案更流畅,长周期复杂任务(叠毛巾、拆积木)的手眼协调性更优,能兼顾刚性/柔性物体处理;
3. 独有优势:传统VLA模型要么“懂动作不会理解”,要么“会理解动作卡顿”,这款模型同时保留了多模态理解能力和高性能实时执行能力,这是此前行业模型做不到的;
4. 对比国际大厂:和Google RT-2、Figue AI Helix等国际顶尖VLA模型处于同一梯队,在实时性、动作流畅性、低成本部署上甚至有优势,是目前具身智能领域的行业标杆级成果。

简单说,这款模型是目前机器人领域“又聪明又灵活”的最优解之一,也是国产机器人大模型在国际上的一次重要突破。👏👏

#小米发布机器人基座模型#

发布于 广东