量子位 25-06-16 11:43
微博认证:量子位官方微博

#Anthropic多能体报告火了##Anthropic多智能体实战经验总结#

Anthropic的多智能体报告火了,引来一众大牛纷纷讨论。

在这份报告中,Anthropic分享了他们如何通过多智能体并行协作打造Claude的研究能力。

报告的关键内容可以总结为以下内容:

- 什么是智能体?

多智能体系统由多个智能体(能够自主循环使用工具的大语言模型)协同工作构成。

- 为何要为研究系统设计多智能体架构?

搜索的本质是信息压缩:从海量数据中提炼洞见。子智能体通过并行运作,能同步探索问题的不同维度,最后为主研究智能体压缩出最关键的Tokens。

- 多智能体的核心架构:协调者-工作者模式【图2】

主控智能体分解问题后,启动具备独立工具链、提示词及记忆模块的专项子智能体,最终整合结果。【图3】

以Claude Opus 4为主智能体、Claude Sonnet 4为子智能体的系统,在研究评估中表现比单智能体Claude Opus 4高出90.2%。

- 多智能体系统的缺陷:消耗更多的Tokens

多智能体系统擅长处理:需要高度并行化的任务、超出单个上下文窗口容量的信息处理任务,以及需要对接多个复杂工具的任务。

但代价是在实际运行中会快速消耗大量token。多智能体系统的token消耗量更是达到普通聊天的15倍。因此从经济可行性考虑,多智能体系统仅适用于任务价值足够高、能够为性能提升买单的场景。

- 提示词工程仍然有效

提示词优化仍然能够改进智能体的行为,在系统中,每个子智能体都需要具备以下关键要素:明确的任务目标、规范的输出格式、详尽的工具及数据源使用指引、清晰的任务边界界定。

他们还引入了工具测试智能体,能够自我优化工具使用,将任务时间减少了40%。

- LLM-as-a-judge效果很好,但人工评估也至关重要

Anthropic使用LLM作为评分员,根据事实准确性、引用准确性、来源质量、工具使用效率和完整性等标准进行评分。

人工评估能捕捉自动化评估遗漏的问题。测试人员能发现评估系统忽略的边缘案例,包括:非常规查询产生的幻觉回答、系统故障,以及细微的信息源选择偏差。

- 生产环境可靠性与工程挑战

为了确保可靠性,他们构建了可恢复的有状态智能体系统,具有检查点,采用彩虹部署并添加全流程生产追踪功能,能够监控智能体决策模式和交互结构。

这对于调试非确定性的长时间运行智能体至关重要。

完整报告值得一读,欢迎查看原文:http://t.cn/A6e8xZpR