阿里发布Qwen-Robot三模型

说真的，阿里这波Qwen-Robot发布，是国内具身智能领域今年到目前为止最系统的一次亮剑。

不是发一个模型，是一发就发三个：

Qwen-RobotManip——操作模型，管手。让机器人拧水龙头、插网线、倒薯条。在RoboChallenge真机评测里包揽了前两名。

Qwen-RobotNav——导航模型，管脚。让机器人在家里找东西——「帮我把行李箱拿过来」。搭载在宇树的Go2四足机器人上演示的。

Qwen-RobotWorld——世界模型，管脑。让机器人理解物理规律，动作之前先在「脑子里」预演一遍结果。

三个模型可以独立用，也可以串起来协同。这个架构思路很清晰——不是做一个「全能模型」，是做一个「模型组合」。不同机器人、不同场景，选不同组合。

我仔细看了Manip（操作模型）的技术细节，有一个设计特别聪明：80维统一动作表征。

什么意思？不同机器人的手不一样——宇树G1的手指跟Figure 02的手指完全是两种结构。以前换个机器人就要重新训模型。阿里的思路是：定义一套通用的「动作语言」（80维向量），任何机器人的手都能翻译成这套语言。这样就实现了跨硬件迁移——在A机器人上训的操作能力，能迁移到B机器人上。

说白了，阿里不是在做某一个机器人的大脑，是在做所有机器人的「通用操作系统」。跟Google的RT系列、NVIDIA的GR00T在同一个方向上卷。

但说实话，真机效果怎么样还得看第三方实测。Benchmark第一不代表真实场景第一。我已经在安排测试了，等有结果告诉你们。
#AI #机器人 #具身智能 #阿里 #Qwen #大模型

发布于美国