千问发布Qwen-AgentWorld

一个语言世界模型，模拟七大Agentic领域

今天，我们正式发布首个原生语言世界模型Qwen-AgentWorld。
传统AI智能体被训练"做什么"，Qwen-AgentWorld 训练的是"接下来会发生什么"。给定当前状态和智能体的动作，预测环境下一步会怎么响应。不是事后去被动适配环境，而是从训练初期就理解环境如何运作。

🎯一个模型，七大领域
Qwen-AgentWorld 代表了我们的核心探索：基于语言模型的世界建模，能否进一步拓展通用智能体能力的边界。它拥有超过 1000 万条真实环境交互轨迹，经由 CPT → SFT → RL 三阶段训练而成。单一模型同时覆盖文本类环境（MCP、搜索、终端、软件工程）与图形界面环境（网页、操作系统、安卓）。
在AgentWorldBench 评测中，Qwen-AgentWorld-397B-A17B 取得了最高的整体模拟质量。

🚀 世界建模真实作用——两个互补范式
1️⃣解耦的环境模拟器
Qwen-AgentWorld 作为环境模拟器提供了真实环境难以企及的可扩展性与可控性。在这种 Sim RL 范式中，世界模型在智能体强化学习训练期间替代真实环境：智能体执行动作，世界模型预测下一步观测，智能体则从这些模拟轨迹中学习。
模型成功模拟了训练数据中完全不存在的 4000 个 OpenClaw 环境，在 Claw-Eval 和 QwenClawBench 上分别取得 +4.3 和 +7.1 的 Sim RL 增益，且无需任何领域适配。加上可控扰动后 MCPMark +12.3、WideSearch +16.3，甚至在 WideSearch 上反超用真实搜索引擎训练的Real RL（F1 50.3% vs 45.6%）。
在完全虚构但自洽的世界里训练，智能体也能泛化到真实搜索任务，还能避免模拟事实与真实知识混淆。

2️⃣智能体基础模型
LWM训练让智能体"选动作"和"预测环境"不分家，把“预测下一步会发生什么”内化成智能体的一种元推理模式。
这种模式展现出突破性的跨任务能力泛化：无需多轮强化学习或任务微调，模型直接迁移至跨 5 个领域的 7 个多轮工具调用基准中。特别是在训练完全未涉及的领域（如 Claw-Eval +11.3、QwenClawBench +9.7、BFCL v4 +9.0），模型依然涌现出显著增益。

Qwen-AgentWorld目前已在Modelscope，Huggingface开源，代码和论文已在GitHub开放，欢迎大家前往。
#Qwen##千问大模型##大模型##AI#

发布于浙江