阿里推具身智能大模型

#阿里推出具身智能大模型Qwen-Robot# 从“听见”到“看见、行动、交互”，多模态技术栈全面升级 🤖

6月17日，阿里云与达摩院联合宣布推出Qwen-Robot系列大模型，一个让机器人不仅能看懂、听懂，还能动手做事的多模态模型家族。对比现有具身智能方案大多通过VLM（视觉语言模型）控制机械臂，Qwen-Robot已完成从视觉到行动的全链路一体化训练。核心突破在于原生融合视觉、语言和动作执行能力，构建了统一的多模态技术栈。

电商仓里理货分拣的机器人，跨过快消品拣完AI设备后动作自然不卡顿——机器人的“手脚”一体化训练完成后，将比“眼睛”单独下达指令精准许多。AI不再停在手机屏幕里“聊天”，而是开始进入仓库、工厂、家庭去“干活”。

不是工具，是生态。

这是AI落地场景迁移问题，不是模型参数竞争问题。