Figure 的两个机器人协作收拾卧室,是我一段时间来看过的最印象深刻的具身智能工作了。
Figure 介绍了为啥要训练两个机器人协作:现实世界中绝大多数工作都属于需要和他人协作的空间,比如家里、仓库、工厂以及任何存在其他人或物体不断移动的环境,这意味着机器人仅有孤立的技能是不够的,还需要观察环境里的其他人或物、实时做出反应,并且依靠彼此的行动来朝着同一个目标推进。
驱动这俩机器人的模型是 Helix 02,这是一个端到端模型,从像素到全身,他们用了超过 1000 个小时的全身人体数据训练了 Helix 02,取代了之前 109504 行手写的 C++ 代码。
这里的从像素到模型指的是所有的传感数据从头部/掌心摄像头、指尖触觉传感器和全身本体感觉传感器输入到 Helix 02 模型,输出的决策直接控制头部、手臂、手腕、单个手指及躯干、腿部...
想象一下开门的动作:人走到门前轻微俯身向下掰门把手,再轻微侧身变换手势和身体姿态把门拉开,这需要从像素到全身的完整推理执行。
这两台机器人执行了开门、挂衣服、收起耳机、合上书、倒垃圾、把椅子推回桌子底下,然后一起合作铺床。
两个机器人运行的是同一个模型,但彼此没有共享的路径规划、没有通信,也没有一个中央网络负责协调,也就是说,两个机器人都是直接通过摄像头读取房间里的状态,然后仅凭协作伙伴的动作来推理对方的意图,合作完成了铺床的动作。
合作铺床其实非常难,因为 A 机器人的每一个动作,都会影响和重新定义 B 机器人正在执行的任务。而被子本身是柔性的,没有固定的形状,也没有标准化的抓取方式,两个人你负责那边我负责这边,中间的界限也是模糊的。
所以你必须一边推理和执行自己的动作,一边理解对方意图并预测对方的动作,非常的印象深刻。
当然,如果你看得够仔细的话,在铺床的时候,两个机器人出现了 3 次停下来 - 对视 - 点头继续,这就好比各位牛马搬砖的时候动不动就要「开个会对齐一下」。
铺床还是太复杂了,需要多多对齐。
发布于 上海
