论文提出多智能体系统定量框架

《Towards a Science of Scaling Agent Systems》

在多智能体系统（MAS）与单智能体系统（SAS）之间，究竟何时“多代理合作”能真正提升性能？《Towards a Science of Scaling Agent Systems》为我们揭示了首个定量科学框架，系统探索了代理数量、协调结构、模型能力与任务属性之间的复杂交互。

核心发现如下：

1. 工具协同的权衡博弈
任务中工具种类越多，MAS的协调开销越大，反而可能拖累整体效率。例如在复杂工具环境下，单智能体因无额外通信开销，反而表现更佳。这打破了“多代理越多越好”的迷思。

2. 能力饱和阈值
当单智能体基线准确率超过约45%时，增加代理数反而出现负收益，协调成本超过性能增益。说明高水平模型不一定适合盲目扩展多代理协作。

3. 架构相关的误差放大效应
独立代理系统因缺乏交叉验证，错误传播可达单体的17倍，严重影响结果质量；而集中协调架构通过协调者检验，能将误差放大控制在4倍以内，显著提升鲁棒性。

4. 任务结构决定最佳架构
- 并行可分解的任务（如金融分析）中央集权架构优势明显，性能提升高达80.9%。
- 动态环境中的高熵搜索任务（如网页浏览）去中心化架构表现最好。
- 严格的顺序依赖任务（如Minecraft规划）所有多代理架构均表现不佳，甚至退步达70%。

5. 性能与成本的非线性关系
多代理系统的推理轮数随代理数量呈超线性增长（幂律指数约1.7），固定预算下，单代理的有效推理能力将被稀释，限制了实际可扩展的团队规模至3-4个代理。

6. 模型能力的加速回报
智能指数的平方项显著正相关，表明能力越强的模型，升级带来的性能提升呈加速趋势。

7. 冗余带来的边际效益有限
多代理中的任务分工冗余虽有助于错误校正，但其贡献远小于协调开销带来的性能损失，强调了高效协调设计的重要性。

此外，研究搭建了180种配置的严格对照实验，涵盖三大主流LLM家族（OpenAI、Google、Anthropic）与多种协调拓扑结构（独立、集中、去中心化、混合），跨四类多样化任务（金融分析、网页浏览、游戏规划、工作流执行），确保结论在任务和模型间的广泛泛化。

这项工作首次提出一个可预测性能的混合效应模型（交叉验证R²=0.513），能够基于任务的工具复杂度、单体基线表现及协调效率，准确预测最优的代理架构，指导科学合理地部署多代理系统，告别经验主义。

启示与展望：

- 多代理系统不是“越多越强”，而是“适合的架构+匹配的任务结构”带来实质收益。
- 任务的顺序依赖性、工具多样性和环境动态性是决定多代理成败的关键。
- 协调设计需兼顾效率与错误控制，避免过度通信导致的性能灾难。
- 未来研究应探索异构模型团队、工具访问调度及多模态环境中的协调机制，突破当前规模和效率瓶颈。

这篇论文为多智能体系统的科学化设计奠定了坚实基石，为实际部署提供了首个可量化、可预测的理论指导，推动从“更多代理”走向“更优协调”的智能体发展新阶段。

详细阅读请见：arxiv.org/abs/2512.08296

发布于北京