千问大模型
26-06-24 13:01 微博认证:千问大模型官方

一个语言世界模型,模拟七大Agentic领域

今天,我们正式发布首个原生语言世界模型Qwen-AgentWorld。
传统AI智能体被训练"做什么",Qwen-AgentWorld 训练的是"接下来会发生什么"。给定当前状态和智能体的动作,预测环境下一步会怎么响应。不是事后去被动适配环境,而是从训练初期就理解环境如何运作。

🎯一个模型,七大领域
Qwen-AgentWorld 代表了我们的核心探索:基于语言模型的世界建模,能否进一步拓展通用智能体能力的边界。它拥有超过 1000 万条真实环境交互轨迹,经由 CPT → SFT → RL 三阶段训练而成。单一模型同时覆盖文本类环境(MCP、搜索、终端、软件工程)与图形界面环境(网页、操作系统、安卓)。
在AgentWorldBench 评测中,Qwen-AgentWorld-397B-A17B 取得了最高的整体模拟质量。

🚀 世界建模真实作用——两个互补范式
1️⃣解耦的环境模拟器
Qwen-AgentWorld 作为环境模拟器提供了真实环境难以企及的可扩展性与可控性。在这种 Sim RL 范式中,世界模型在智能体强化学习训练期间替代真实环境:智能体执行动作,世界模型预测下一步观测,智能体则从这些模拟轨迹中学习。
模型成功模拟了训练数据中完全不存在的 4000 个 OpenClaw 环境,在 Claw-Eval 和 QwenClawBench 上分别取得 +4.3 和 +7.1 的 Sim RL 增益,且无需任何领域适配。加上可控扰动后 MCPMark +12.3、WideSearch +16.3,甚至在 WideSearch 上反超用真实搜索引擎训练的Real RL(F1 50.3% vs 45.6%)。
在完全虚构但自洽的世界里训练,智能体也能泛化到真实搜索任务,还能避免模拟事实与真实知识混淆。

2️⃣智能体基础模型
LWM训练让智能体"选动作"和"预测环境"不分家,把“预测下一步会发生什么”内化成智能体的一种元推理模式。
这种模式展现出突破性的跨任务能力泛化:无需多轮强化学习或任务微调,模型直接迁移至跨 5 个领域的 7 个多轮工具调用基准中。特别是在训练完全未涉及的领域(如 Claw-Eval +11.3、QwenClawBench +9.7、BFCL v4 +9.0),模型依然涌现出显著增益。

Qwen-AgentWorld目前已在Modelscope,Huggingface开源,代码和论文已在GitHub开放,欢迎大家前往。
#Qwen##千问大模型##大模型##AI#

发布于 浙江