说真的,阿里这波Qwen-Robot发布,是国内具身智能领域今年到目前为止最系统的一次亮剑。
不是发一个模型,是一发就发三个:
Qwen-RobotManip——操作模型,管手。让机器人拧水龙头、插网线、倒薯条。在RoboChallenge真机评测里包揽了前两名。
Qwen-RobotNav——导航模型,管脚。让机器人在家里找东西——「帮我把行李箱拿过来」。搭载在宇树的Go2四足机器人上演示的。
Qwen-RobotWorld——世界模型,管脑。让机器人理解物理规律,动作之前先在「脑子里」预演一遍结果。
三个模型可以独立用,也可以串起来协同。这个架构思路很清晰——不是做一个「全能模型」,是做一个「模型组合」。不同机器人、不同场景,选不同组合。
我仔细看了Manip(操作模型)的技术细节,有一个设计特别聪明:80维统一动作表征。
什么意思?不同机器人的手不一样——宇树G1的手指跟Figure 02的手指完全是两种结构。以前换个机器人就要重新训模型。阿里的思路是:定义一套通用的「动作语言」(80维向量),任何机器人的手都能翻译成这套语言。这样就实现了跨硬件迁移——在A机器人上训的操作能力,能迁移到B机器人上。
说白了,阿里不是在做某一个机器人的大脑,是在做所有机器人的「通用操作系统」。跟Google的RT系列、NVIDIA的GR00T在同一个方向上卷。
但说实话,真机效果怎么样还得看第三方实测。Benchmark第一不代表真实场景第一。我已经在安排测试了,等有结果告诉你们。
#AI #机器人 #具身智能 #阿里 #Qwen #大模型
发布于 美国
