前沿在线FrontiersOnline
26-06-16 15:55 微博认证:前沿在线微博官方账号

阿里把机器人"手、脚、脑"拆成三个模型开源协同:换台机器只要试几步就上手

6月16日,阿里巴巴正式发布千问具身智能大模型Qwen-Robot系列,一口气端出三个模型——Qwen-RobotManip(操作)、Qwen-RobotNav(移动)、Qwen-RobotWorld(世界模型),分别对应机器人的手、脚、脑。

这是千问家族首个完整具身智能组合,也是互联网大厂里第一个把具身模型拆成"三件套协同"的产品。

Qwen-RobotManip是C位。 走VLA(视觉-语言-动作)路线,预训练语料超过38,000小时,且全程仅基于开源数据——在行业普遍靠私有自采数据堆SOTA的当下,这条路很硬气。

技术核心是两招:一是80维统一动作表征,给不同硬件定义了一套通用"肢体语言",让机器人学的是物理规律和动作逻辑,不是生硬模仿某个特定平台的动作序列;二是相对位置操作,直接基于摄像头画面里的相对位置做动作决策,不依赖繁琐的绝对坐标,面对环境变化更快更准。

切到新硬件上,只需数步反馈就能自动适配——用官方的比喻,"像老司机坐进陌生车,试几脚油门就能上路"。

真机榜单是最直接的验证。在RoboChallenge Table30 v1(横跨30项真实世界任务、4个机器人平台)中,代号"Lira"的版本拿下全球第一,"Atlas"版本拿下全球第二,典型任务包括拧水龙头、插网线、双臂倒薯条。

Qwen-RobotNav负责"认路",基于Qwen-VL构建,统一覆盖语言指令导航、目标搜索、自动驾驶等5大任务族。核心创新是"任务自适应观察机制"——根据任务灵活切换记忆策略,解决传统VLN"记少迷路、记多混乱"的困境。

已搭载宇树Go2四足机器人实测,对它说"帮我找找行李箱",机器狗能自主巡逻+视觉推理一条龙完成寻物。

Qwen-RobotWorld则是一个"会脑补"的世界模型,在机器人执行动作前推演未来轨迹,像体操运动员在脑子里先过一遍动作再上场;还能生成合成视频数据喂给前两个模型,缓解真机数据不足的痛点。

三个模型既独立部署也能协同运转——你开工厂可以只用Manip,做仓储可以Nav+Manip组合,需要全场景覆盖三个全上。

底层能力托底的是5月20日发布的Qwen3.7-Max,在Arena全球大模型盲测总榜上排国产第一。

从数字智能体到物理智能体,阿里这次摆出的姿态是:不造机器人本体,只做所有机器人的"通用大脑"——手、脚、脑全给你配好,开源数据路线可复现,本体厂商直接拿去适配就行。

发布于 北京