Chain-of-Agents（CoA）提出用单一模型实现多智能体系统的能力，颠覆传统多智能体架构，带来推理成本大幅降低的同时，还保持了高效协作和工具调用能力。• 端到端训练单模型，模拟多角色扮演与工具调用，消除多智能体间通信开销，保持状态一致性。 • 通过多智能体蒸馏将复杂多智能体轨迹转为CoA格

Chain-of-Agents（CoA）提出用单一模型实现多智能体系统的能力，颠覆传统多智能体架构，带来推理成本大幅降低的同时，还保持了高效协作和工具调用能力。

• 端到端训练单模型，模拟多角色扮演与工具调用，消除多智能体间通信开销，保持状态一致性。
• 通过多智能体蒸馏将复杂多智能体轨迹转为CoA格式，并结合agentic RL针对关键任务优化，强化工具利用与推理能力。
• 两阶段训练：SFT阶段用高质量ReAct风格数据构建基础，RL阶段用奖励机制提升工具协调和鲁棒性，确保推理精度和效率。
• 在Qwen-2.5-32B骨干上，AFM模型刷新多项多跳QA和网页任务的顶尖成绩，显著领先传统基线。
• 数学与代码任务表现尤为出色，AIME25达59.8分，MATH500达94.6分，超越ReTool、Reveal等方法。
• 推理成本（token和工具调用）降低84.6%，同时对未见工具具备更强泛化能力，适应严格格式需求。
• 测试时多次采样提升性能，接近甚至超越更大规模多智能体系统，展现极佳扩展潜力。

这突破性方案不仅大幅削减成本，还为实现高效智能自动化奠定基础，有望引领下一代多智能体启发的实用AI产品创新。

详细项目+代码+模型👉 chain-of-agents-afm.github.io
论文《Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL》全文👉 arxiv.org/abs/2508.13167

#多智能体# #人工智能# #强化学习# #自然语言处理# #自动化#

发布于北京