千问发布机器人套件

🤖让AI从“会说”到“会做”

AI 已经能看懂物理世界——识别物体、理解空间、规划步骤。但 “看懂”和“做到”之间还有一道鸿沟：模型知道该怎么做，但无法生成执行所需的运动指令。更难的是，具身数据采集的成本高、格式五花八门，很难规模化。

今天，我们发布Qwen-Robot Suite，这是一套面向物理世界智能的基础模型套件，包含 Qwen-RobotNav、Qwen-RobotManip、Qwen-RobotWorld 三个基础模型，它们将语言对齐到各自的物理行动域，让 AI 不仅能看懂世界，更能在其中行动。

🦿Qwen-RobotNav：物理智能体的⾏动⼊⼝
机器人的导航任务千差万别：有时需要长程记忆（比如“去厨房找个杯子”），有时只需紧盯眼前（比如“跟上那个穿蓝衣服的人”），所以一个能处理所有任务的模型，不能固守单一的上下文策略。
Qwen-RobotNav基于 Qwen3-VL 构建，在 1560 万个样本上训练，通过可控观测编码和工具接口，把视觉语言能力接入移动控制，统一了指令跟随、点/目标导航、目标追踪和自动驾驶四类任务。这意味着，它无需重新训练，就能灵活适应各种新场景和新配置。同时，模型已在 5 个导航领域达到 SOTA。

🦾Qwen-RobotManip：物理交互的基石
Qwen-RobotManip 基于 Qwen3.5-4B VL，解决了不同机器人的关节构型和动作空间不兼容的问题。统一的 80 维状态-动作表示，在单臂、双臂、灵巧手和移动平台等本体间共享;相机坐标系下的末端执行器增量位姿动作，让相似动作的数值也相近;最后通过上下⽂策略⾃适应，将执行历史读入。
模型在RoboChallenge Table30 v1 通用赛道以 45% SR 排名第一，性能较此前SOTA提升20%。

🧠Qwen-RobotWorld：⽆限的机器⼈世界
模型用自然语言表达所有动作信号，将20余种本体类型、500余个动作类别统一到同一框架下。给定一条语言指令，它能预测符合物理规律的未来，不仅能合成训练数据，还能在执行前想象和评估动作序列。模型在 EWMBench 总排名第一，运动保真度大幅领先。

物理世界智能仍处于起步阶段，但前路已经清晰：从强大的多模态理解出发，逐领域对齐语言与物理行动，通过规模化训练，实现强大的泛化能力。我们希望这三个模型构建出能够移动、操作与想象的物理智能体！
#Qwen##千问大模型##大模型#

发布于浙江