🤖让AI从“会说”到“会做”
AI 已经能看懂物理世界——识别物体、理解空间、规划步骤。但 “看懂”和“做到”之间还有一道鸿沟:模型知道该怎么做,但无法生成执行所需的运动指令。更难的是,具身数据采集的成本高、格式五花八门,很难规模化。
今天,我们发布Qwen-Robot Suite,这是一套面向物理世界智能的基础模型套件,包含 Qwen-RobotNav、Qwen-RobotManip、Qwen-RobotWorld 三个基础模型,它们将语言对齐到各自的物理行动域,让 AI 不仅能看懂世界,更能在其中行动。
🦿Qwen-RobotNav:物理智能体的⾏动⼊⼝
机器人的导航任务千差万别:有时需要长程记忆(比如“去厨房找个杯子”),有时只需紧盯眼前(比如“跟上那个穿蓝衣服的人”),所以一个能处理所有任务的模型,不能固守单一的上下文策略。
Qwen-RobotNav基于 Qwen3-VL 构建,在 1560 万个样本上训练,通过可控观测编码和工具接口,把视觉语言能力接入移动控制,统一了指令跟随、点/目标导航、目标追踪和自动驾驶四类任务。这意味着,它无需重新训练,就能灵活适应各种新场景和新配置。同时,模型已在 5 个导航领域达到 SOTA。
🦾Qwen-RobotManip:物理交互的基石
Qwen-RobotManip 基于 Qwen3.5-4B VL,解决了不同机器人的关节构型和动作空间不兼容的问题。统一的 80 维状态-动作表示,在单臂、双臂、灵巧手和移动平台等本体间共享;相机坐标系下的末端执行器增量位姿动作,让相似动作的数值也相近;最后通过上下⽂策略⾃适应,将执行历史读入。
模型在RoboChallenge Table30 v1 通用赛道以 45% SR 排名第一,性能较此前SOTA提升20%。
🧠Qwen-RobotWorld:⽆限的机器⼈世界
模型用自然语言表达所有动作信号,将20余种本体类型、500余个动作类别统一到同一框架下。 给定一条语言指令,它能预测符合物理规律的未来,不仅能合成训练数据,还能在执行前想象和评估动作序列。模型在 EWMBench 总排名第一,运动保真度大幅领先。
物理世界智能仍处于起步阶段,但前路已经清晰:从强大的多模态理解出发,逐领域对齐语言与物理行动,通过规模化训练,实现强大的泛化能力。我们希望这三个模型构建出能够移动、操作与想象的物理智能体!
#Qwen##千问大模型##大模型#
