姬永锋 25-10-23 08:28
微博认证:财经博主

智元终于想明白了,人形不适合目前落地(251019)

摘自天南 天南AI茶馆

对于智元而言,运动控制上有宇树在前面卡位,通用人形上特斯拉还走出量产的道路和技术方案。

今天借着解析精灵G2来窥探他们认为的:机器人现阶段落地最优解方案。

现在的机器人市场关注度较高的,基本可以分为两大阵营。
第一类是以特斯拉、FigureAI为代表的双足 +全尺寸+ 灵巧手的通用人形机器人。奔着落地终局的第一性原理出来,想着用通用机器人解决人类90%场景问题。
第二类是以宇树为代表为双足 + 小尺寸 + 运动控制,奔着泛娱乐场景下的运动控制展示。其实这个赛道基本没有别人,是宇树硬生生自己走出来,现在也是卷到特斯拉也开始放一些强化学习下的功夫视频。

但不管是第一类还是第二类,其实都比较难落地。
通用人型的问题是,要解的问题太多了,技术难度限制落地。不仅要考虑大脑技术中智能交互的AI能力,更要考虑双足运动控制下的协同。
小尺寸运控问题是,限于自由度以及尺寸等问题,无法在通用场景中放大,只能继续沿着泛娱乐的方向进行。

现在的已经没有人愿意等你10年,去陪你等一个终局的通用机器人,那国内厂商们没有马斯克的财力和魄力,那怎么破「落地难」的局?
这周看到了智元发布了新款产品,让我们看清了智元的最终落地想法:
卷不过某厂商的双足运控大玩具,又等不到特斯拉走出来,那我自己干:砍掉双足去发挥自己特长,卷轮式 + 上半身的通用AI能力。
我们先来看来智元的新品,再来谈谈未来的规划。

这次精灵G2有什么值得注意的?

1)手臂:
手部和大臂是采用了19自由度的灵巧手 + 7自由度的机械臂。其中能够注意到腕部是只有俯仰角的设计(最下方的红色箭头)。

你可以试着摆动下你的手腕,你会发现在手腕其实可以侧向摆动30度左右的范围。如果只有俯仰角的话,是无法实现一些高精度的操作。
比如你在拧相邻的螺丝的过程中,无法通过侧摆到达对应点位,只能重新调整上面的自由度完成,而这个时候就会出现一些位置计算和误差。

2)灵巧手

手部19个自由度,配备了3D触觉传感器,官方给出的参数是最大加持力20N,以及可以抓取35公斤的重物。
而我主要聊下触觉传感器:是为了摩擦力的感知,比如为什么你拿着鸡蛋不会掉,而之前的机器人手臂会直接捏碎。就是因为缺少了对于鸡蛋摩擦力的动态调整。
但有了这样的触觉传感器加持,并不意味着可以捏鸡蛋了,如果没有针对鸡蛋场景的大规模训练,模型是依然无法感知到捏鸡蛋的力应该是多少N才合适。
换句话来说,硬件不是瓶颈,软件算法能力才是,而软件算法中最缺的就是相应的数据。这个之前文章也有提过:智元终于想明白了,模型架构从来都不是什么核心资产

我们在这里又看到了腕关节RGBD摄像头,还记得前几天刚发布的Figure03吗?他们是在手掌的部分加了摄像头,这块充分说明了:

触觉感知能力不够,视觉摄像头来凑。
毕竟人类是绝不需要手部来长个眼睛来cover手部的感知能力,你在闭着眼睛摸一下,你就知道这是手机,杯子等。
而机器人在这块触感感知到物体具象的能力,基本为0。原因还是上面提到了模型能力不足。

3)激光雷达 + 超声波雷达
智元这次发布会着重强调了安全性,这点对于机器人的落地而言至关重要。配备了2个激光雷达 + 8个超声波雷达,跟自动驾驶车级别类似。

结合23年特斯拉Optimus因为机器人手臂砸伤工作人员,以及前段时间机器人运动上宇树G1撞上行人,这些都是非常严重的事故。
双足机器人本身就会因为重心不稳的问题存在跌倒的隐患,而一旦跌倒,轻则摔坏执行器,重则会危及周围的人。
这也是双足机器人现阶段难以落地的非常大的问题。而轮式 + 机械臂的这种设计就把这个问题给大大简化了。
轮式不会跌倒,在配备一定的传感器和激光雷达,基本就能够做到安全可控。

4)多模态感知和海量知识

其中宣传中还着重提到了多模态感知和海量知识。
关于这两块,其实没啥特别多好说的,这跟智元的关系不大,主要是看接入的哪个VLM以及LLM模型。
比如现在的VLM模型(比较出名的就是阿里的Qwen系列)已经能够较好的识别场景以及根据这些场景回答问题。 而海量知识这块也是互联网大厂赋能人形机器人企业。可以接入豆包、或者基于开源模型进行微调输出即可。

比较有意思的点是,如果是科普导览场景的话,需要配合一定的手部预设动作,这样会更拟人。如果能够在结合VLM模型,指向针对性物体进行讲解,那效果应该会更好一些。

智元要走一条什么样的路线?
通过智元精灵G2,你能明显的感受到谁是用来主力落地的。
目前智元其实有三条产品线,远征、精灵、灵犀。这三条的用意都不一样。
远征,全尺寸双足人形机器人,其实是为了紧跟特斯拉的人形机器人脚步,跟紧产业的最新趋势和技术发展。
灵犀,小尺寸双足人形 + 机器人狗,这个产品线感觉是为了对标宇树,前一段灵犀也展示了最新的运动控制能力(变着花样的翻跟头),也是沿着泛娱乐大玩具的角度往下推进。

精灵,目前轮式机器人 + 灵巧手的设计,不用卷运动控制,只发挥智元的特长“大脑AI”。也是目前看起来最具备在国内的商业化场景落地的产品。
其实在智元内部我猜应该也有不同的声音:
跟着宇树搞运动控制,缺少先发和生态优势,蛋糕不够大。
跟着特斯拉搞通用人形,难度和风险都太大了,特斯拉自己走不走得出来还不一定。
跟着自己搞大脑能力,主要是上半身技术,那就给机械臂找个自动驾驶平台,就变成了现在的精灵系列。
而最后这条线路也是目前最稳的方式。

他们也想的很明白,不管是对标特斯拉,还是宇树,以及自己的商业化场景,都有了提前占位和持续发力的方向,后面持续关注。

发布于 河南