爱可可-爱生活
25-08-21 07:24 微博认证:AI博主 2025微博新锐新知博主

Chain-of-Agents(CoA)提出用单一模型实现多智能体系统的能力,颠覆传统多智能体架构,带来推理成本大幅降低的同时,还保持了高效协作和工具调用能力。

• 端到端训练单模型,模拟多角色扮演与工具调用,消除多智能体间通信开销,保持状态一致性。
• 通过多智能体蒸馏将复杂多智能体轨迹转为CoA格式,并结合agentic RL针对关键任务优化,强化工具利用与推理能力。
• 两阶段训练:SFT阶段用高质量ReAct风格数据构建基础,RL阶段用奖励机制提升工具协调和鲁棒性,确保推理精度和效率。
• 在Qwen-2.5-32B骨干上,AFM模型刷新多项多跳QA和网页任务的顶尖成绩,显著领先传统基线。
• 数学与代码任务表现尤为出色,AIME25达59.8分,MATH500达94.6分,超越ReTool、Reveal等方法。
• 推理成本(token和工具调用)降低84.6%,同时对未见工具具备更强泛化能力,适应严格格式需求。
• 测试时多次采样提升性能,接近甚至超越更大规模多智能体系统,展现极佳扩展潜力。

这突破性方案不仅大幅削减成本,还为实现高效智能自动化奠定基础,有望引领下一代多智能体启发的实用AI产品创新。

详细项目+代码+模型👉 chain-of-agents-afm.github.io
论文《Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL》全文👉 arxiv.org/abs/2508.13167

#多智能体# #人工智能# #强化学习# #自然语言处理# #自动化#

发布于 北京