智算派
26-06-24 09:57 微博认证:汽车博主 微博原创视频博主

说真的,阿里这波Qwen-Robot发布,是国内具身智能领域今年到目前为止最系统的一次亮剑。

不是发一个模型,是一发就发三个:

Qwen-RobotManip——操作模型,管手。让机器人拧水龙头、插网线、倒薯条。在RoboChallenge真机评测里包揽了前两名。

Qwen-RobotNav——导航模型,管脚。让机器人在家里找东西——「帮我把行李箱拿过来」。搭载在宇树的Go2四足机器人上演示的。

Qwen-RobotWorld——世界模型,管脑。让机器人理解物理规律,动作之前先在「脑子里」预演一遍结果。

三个模型可以独立用,也可以串起来协同。这个架构思路很清晰——不是做一个「全能模型」,是做一个「模型组合」。不同机器人、不同场景,选不同组合。

我仔细看了Manip(操作模型)的技术细节,有一个设计特别聪明:80维统一动作表征。

什么意思?不同机器人的手不一样——宇树G1的手指跟Figure 02的手指完全是两种结构。以前换个机器人就要重新训模型。阿里的思路是:定义一套通用的「动作语言」(80维向量),任何机器人的手都能翻译成这套语言。这样就实现了跨硬件迁移——在A机器人上训的操作能力,能迁移到B机器人上。

说白了,阿里不是在做某一个机器人的大脑,是在做所有机器人的「通用操作系统」。跟Google的RT系列、NVIDIA的GR00T在同一个方向上卷。

但说实话,真机效果怎么样还得看第三方实测。Benchmark第一不代表真实场景第一。我已经在安排测试了,等有结果告诉你们。
#AI #机器人 #具身智能 #阿里 #Qwen #大模型

发布于 美国