阿里把机器人"手、脚、脑"拆成三个模型开源协同：换台机器只要试几步就上手6月16日，阿里巴巴正式发布千问具身智能大模型Qwen-Robot系列，一口气端出三个模型——Qwen-RobotManip（操作）、Qwen-RobotNav（移动）、Qwen-RobotWorld（世界模型），分别对应机器人的手、脚、脑。这是千问家族首个完整

阿里把机器人"手、脚、脑"拆成三个模型开源协同：换台机器只要试几步就上手

6月16日，阿里巴巴正式发布千问具身智能大模型Qwen-Robot系列，一口气端出三个模型——Qwen-RobotManip（操作）、Qwen-RobotNav（移动）、Qwen-RobotWorld（世界模型），分别对应机器人的手、脚、脑。

这是千问家族首个完整具身智能组合，也是互联网大厂里第一个把具身模型拆成"三件套协同"的产品。

Qwen-RobotManip是C位。走VLA（视觉-语言-动作）路线，预训练语料超过38,000小时，且全程仅基于开源数据——在行业普遍靠私有自采数据堆SOTA的当下，这条路很硬气。

技术核心是两招：一是80维统一动作表征，给不同硬件定义了一套通用"肢体语言"，让机器人学的是物理规律和动作逻辑，不是生硬模仿某个特定平台的动作序列；二是相对位置操作，直接基于摄像头画面里的相对位置做动作决策，不依赖繁琐的绝对坐标，面对环境变化更快更准。

切到新硬件上，只需数步反馈就能自动适配——用官方的比喻，"像老司机坐进陌生车，试几脚油门就能上路"。

真机榜单是最直接的验证。在RoboChallenge Table30 v1（横跨30项真实世界任务、4个机器人平台）中，代号"Lira"的版本拿下全球第一，"Atlas"版本拿下全球第二，典型任务包括拧水龙头、插网线、双臂倒薯条。

Qwen-RobotNav负责"认路"，基于Qwen-VL构建，统一覆盖语言指令导航、目标搜索、自动驾驶等5大任务族。核心创新是"任务自适应观察机制"——根据任务灵活切换记忆策略，解决传统VLN"记少迷路、记多混乱"的困境。

已搭载宇树Go2四足机器人实测，对它说"帮我找找行李箱"，机器狗能自主巡逻+视觉推理一条龙完成寻物。

Qwen-RobotWorld则是一个"会脑补"的世界模型，在机器人执行动作前推演未来轨迹，像体操运动员在脑子里先过一遍动作再上场；还能生成合成视频数据喂给前两个模型，缓解真机数据不足的痛点。

三个模型既独立部署也能协同运转——你开工厂可以只用Manip，做仓储可以Nav+Manip组合，需要全场景覆盖三个全上。

底层能力托底的是5月20日发布的Qwen3.7-Max，在Arena全球大模型盲测总榜上排国产第一。

从数字智能体到物理智能体，阿里这次摆出的姿态是：不造机器人本体，只做所有机器人的"通用大脑"——手、脚、脑全给你配好，开源数据路线可复现，本体厂商直接拿去适配就行。

发布于北京