#Anthropic多能体报告火了##Anthropic多智能体实战经验总结#Anthropic的多智能体报告火了，引来一众大牛纷纷讨论。在这份报告中，Anthropic分享了他们如何通过多智能体并行协作打造Claude的研究能力。报告的关键内容可以总结为以下内容：- 什么是智能体？多智能体系统由多个智能体（能够自主

#Anthropic多能体报告火了##Anthropic多智能体实战经验总结#

Anthropic的多智能体报告火了，引来一众大牛纷纷讨论。

在这份报告中，Anthropic分享了他们如何通过多智能体并行协作打造Claude的研究能力。

报告的关键内容可以总结为以下内容：

- 什么是智能体？

多智能体系统由多个智能体（能够自主循环使用工具的大语言模型）协同工作构成。

- 为何要为研究系统设计多智能体架构？

搜索的本质是信息压缩：从海量数据中提炼洞见。子智能体通过并行运作，能同步探索问题的不同维度，最后为主研究智能体压缩出最关键的Tokens。

- 多智能体的核心架构：协调者-工作者模式【图2】

主控智能体分解问题后，启动具备独立工具链、提示词及记忆模块的专项子智能体，最终整合结果。【图3】

以Claude Opus 4为主智能体、Claude Sonnet 4为子智能体的系统，在研究评估中表现比单智能体Claude Opus 4高出90.2%。

- 多智能体系统的缺陷：消耗更多的Tokens

多智能体系统擅长处理：需要高度并行化的任务、超出单个上下文窗口容量的信息处理任务，以及需要对接多个复杂工具的任务。

但代价是在实际运行中会快速消耗大量token。多智能体系统的token消耗量更是达到普通聊天的15倍。因此从经济可行性考虑，多智能体系统仅适用于任务价值足够高、能够为性能提升买单的场景。

- 提示词工程仍然有效

提示词优化仍然能够改进智能体的行为，在系统中，每个子智能体都需要具备以下关键要素：明确的任务目标、规范的输出格式、详尽的工具及数据源使用指引、清晰的任务边界界定。

他们还引入了工具测试智能体，能够自我优化工具使用，将任务时间减少了40%。

- LLM-as-a-judge效果很好，但人工评估也至关重要

Anthropic使用LLM作为评分员，根据事实准确性、引用准确性、来源质量、工具使用效率和完整性等标准进行评分。

人工评估能捕捉自动化评估遗漏的问题。测试人员能发现评估系统忽略的边缘案例，包括：非常规查询产生的幻觉回答、系统故障，以及细微的信息源选择偏差。

- 生产环境可靠性与工程挑战

为了确保可靠性，他们构建了可恢复的有状态智能体系统，具有检查点，采用彩虹部署并添加全流程生产追踪功能，能够监控智能体决策模式和交互结构。

这对于调试非确定性的长时间运行智能体至关重要。

完整报告值得一读，欢迎查看原文：http://t.cn/A6e8xZpR