Anthropic 官方博客最近发了一篇关于如何用好 Claude 智能的文章,讲了三个构建应用的核心模式,干货很多,我来给大家拆解一下。
文章开头就点明了一个关键背景:像 Claude 这样的 AI 系统,与其说是"被构建出来的",不如说是"被培育出来的"。研究人员设定生长条件,但最终涌现出什么能力,并不总是可预测的。这就带来一个问题:开发者在构建应用时对 Claude "做不到什么"的假设,会随着模型能力的提升而过时。所以文章的核心建议就是:别替 Claude 做太多决定,让它自己来。
第一个模式:用 Claude 已经熟悉的工具。2024 年底,Claude 3.5 Sonnet 只靠一个 bash 工具和一个文本编辑器,就在 SWE-bench 上拿到了 49% 的当时最高分。Claude Code 也是建立在这两个基础工具之上的。bash 本来不是为构建 Agent 设计的,但 Claude 非常熟悉它,而且会越用越好。与其给它一堆定制化的专用工具,不如给它通用工具,让它自己组合出解决方案。
第二个模式:不断问自己"我可以停止做什么了"。这个观点特别有意思。很多开发者习惯在应用层做大量的编排工作,比如把每个工具的返回结果都塞进上下文窗口,或者手写一大堆系统提示词。但随着 Claude 越来越聪明,这些"辅助"反而变成了瓶颈。文章举了几个例子:让 Claude 自己写代码来编排工具调用,它可以自己决定哪些结果需要处理、哪些可以直接传递给下一步;让 Claude 通过 skills 机制自己管理上下文,按需加载任务相关的信息;让 Claude 自己决定记住什么、忘掉什么。在 BrowseComp 基准测试上,Opus 4.6 通过自己过滤工具输出,准确率从 45.3% 飙升到 61.6%。在玩宝可梦游戏的测试中,早期模型把记忆当流水账记,14000 步之后还在第二个城镇打转,而 Opus 4.6 学会了写战术笔记,同样步数已经拿到三个道馆徽章了。
第三个模式:谨慎设置边界。虽然要给 Claude 更多自主权,但安全、用户体验和可观测性方面的边界还是需要的。比如不可逆的操作(像外部 API 调用)应该加上用户确认环节,需要展示给用户的操作应该用专门的工具来呈现。但这些边界也要持续评估,因为 Claude 的能力在进化,之前需要的"护栏"可能已经变成了多余的负担。
总结一下,这篇文章的核心思想就是:随着模型能力不断增强,开发者应该持续做减法,把更多的决策权交还给模型本身。你之前写的那些补偿性代码和复杂编排逻辑,可能正在拖 Claude 的后腿。
原文地址:claude.com/blog/harnessing-claudes-intelligence
#科技先锋官##How I AI#
