Claude平台演化与Agent分析

最近听了一期很有信息密度的播客，来自 Every 的 Dan Shipper，他采访了 Anthropic 平台团队的两位核心负责人：产品负责人 Angela Jiang 和工程负责人 Katelyn Lesse。整期对话围绕 Claude Managed Agents 展开，从设计哲学到基础设施挑战，从实际应用案例到未来一年的方向，信息量非常大。我把里面最有价值的几个观点整理出来，尽量讲得通俗一些。

一、平台的演化轨迹：从补全接口到自主 Agent 基础设施

Angela 回顾了 Claude 平台的演化路径。最早期就是一个文本补全接口，你发一段 prompt，它返回一段文字。后来加了工具调用、对话状态管理这些能力。再到现在的 Managed Agents，本质上是一个跑在云端的 Claude，带着文件系统、代码执行、网页搜索等一整套能力，可以自主运行、弹性伸缩。

这个演化背后有一条清晰的主线：模型越来越强、越来越自主，平台就得跟着往更高层的抽象走。最终目标始终是一个：让用户用最少的力气，拿到最好的结果。

这其实跟我们日常工作中的工具选择逻辑是一样的。当一个工具足够强大的时候，围绕它的基础设施就会自然生长出来，把那些重复性的、低价值的配置工作吞掉。你要做的，就是尽早理解这个趋势，把精力放在定义目标上，而不是纠结于实现细节。

二、Harness 和模型正在变成一个整体

这是整期访谈里我觉得最有洞察力的一个观点。

Angela 说，以前大家习惯搭一个非常通用的运行框架（harness），然后随便换模型进去跑。GPT、Claude、Gemini，哪个好用就换哪个。这在早期模型能力差异不大的时候是合理的。

但现在情况变了。各家模型走的技术路线差异越来越大，Claude 特别擅长文件系统操作，其他模型可能在别的方向有优势。如果你想榨出最好的效果，就得针对特定模型做深度的 harness 工程。他们内部测试过不同的 harness 方案，同一个模型在不同 harness 下的表现差异非常大。

所以未来你换的单位应该是“Agent”这个整体，也就是 harness 加模型的组合，而不是单独在底层换模型。

这个观点放到更大的视角来看也很有意思。很多人在选 AI 工具的时候，总是纠结于“哪个模型最强”。但实际上，模型只是其中一个变量。围绕模型的提示词设计、工具配置、工作流编排，这些加在一起才构成真正的能力单元。与其追着模型跑，不如把精力花在打磨整个系统的配合上。

三、真正卡住所有人的是基础设施，不是 Harness 工程

Katelyn 聊了一个很多开发者都会踩的坑。她说大多数人以为做 Agent 最难的部分是 harness 工程，就是怎么调 prompt、怎么管理上下文窗口、怎么做 prompt caching 这些。但实际上，真正卡住所有人的是基础设施。

具体来说就是：怎么让 Agent 持续运行不挂掉？沙箱断连了整个 Agent 就死了怎么办？怎么安全隔离？怎么存储会话数据？怎么弹性伸缩？

Anthropic 自己内部反复踩了这个坑之后，决定把这层基础设施做成产品开放出来。这就是 Managed Agents 的由来。他们自己用 Mac Mini 跑 Agent、用千行 Python 文件做编排的经历，和外面很多团队一模一样。

这个现象其实在技术领域反复出现。原型阶段什么都好说，一旦要上生产环境、要 7x24 小时稳定运行、要支撑多用户并发，基础设施的复杂度就会指数级上升。很多看起来“能跑”的 demo，距离真正“能用”还有巨大的鸿沟。

四、团队级 Agent 和个人效率工具是两种完全不同的形态

Angela 特别强调了一点：个人生产力工具和团队级 Agent 的需求完全不同。

个人层面，你用 Claude Code 或者各种 AI 工具提升自己的效率，这很好。但一旦到了团队层面，事情就复杂得多了。Agent 不能跑在你的笔记本上，多个人要协作使用同一个 Agent，多个 Agent 之间要互相配合，还需要人类在关键节点介入审批。

她提到 Vercel 的 CEO 把公司内部描述为一个“AI 软件工厂”，每个流程都有 Agent 在参与。这种组织形态需要的基础设施层级，远远超出个人工具的范畴。

这让我想到一个很现实的问题：很多公司现在都在推“全员用 AI”，但大部分还停留在个人效率提升的阶段。真正的组织级 AI 化，需要的是流程重构、Agent 编排、权限管理、人机协作机制这些更系统性的东西。个人会用 AI 和组织会用 AI，中间差着好几个量级的复杂度。

五、法务审核营销文案：一个真实的内部 Agent 案例

Katelyn 举了一个 Anthropic 内部的实际案例。以前营销团队写完文案，要提工单给法务审核，来回可能好几天。现在他们搭了一个 Agent，营销人员写完直接提交，Agent 先做第一轮审核。如果明确没问题就直接放行，拿不准的才推给人类法务。

更有意思的是后续发生的事。使用这个工具的非技术人员，觉得某些地方可以改进，就自己打开 Claude Code 给 Agent 提了 PR。整个系统变成了一个自我进化的闭环。

Dan 追问了一个很尖锐的问题：如果没有人负责维护这个 Agent，它会不会很快就过时变成一个“僵尸”？Angela 的回答是，他们在系统里加了多层抽象。终端用户不需要直接改代码，他们跟 Claude 对话就行，Claude 会判断该怎么处理他们的需求。本质上是 managed agents 套 managed agents，每一层解决不同层级的问题。

这个案例特别值得琢磨。它说明 Agent 最有价值的应用场景，往往是那些跨部门协作、流程固定但耗时、需要专业判断但大部分情况可以自动化的环节。而且 Agent 一旦部署，它的维护和进化机制同样重要。一个没人管的 Agent，很快就会变成负担。

六、多智能体编排：不同架构适合不同场景

Angela 聊到他们刚上线的多智能体编排能力，提到了几种很有意思的模式：

第一种是 Advisor 模式，把执行和建议分离。一个 Agent 负责干活，另一个负责提供策略指导。

第二种是对抗模式，一个 Agent 生成内容，另一个专门挑毛病。这种特别适合需要高质量输出的场景。

第三种是 Swarm 模式，把任务拆成很多小块，一群 Agent 各自处理再汇总。这种适合 bug hunting 或者大规模信息搜集。

还有 Best-of-N 模式，多个 Agent 各自尝试，最后选最好的那个结果。

Angela 说，如果能把这些基础原语做得像乐高积木一样灵活，人们就能在更高的层面上组合出各种策略，而且在多个抽象层级上都能持续优化。

这个思路对我们理解 AI 协作也有启发。很多时候我们只是让一个 AI 做一件事，但如果你能设计出“生成加审核”或者“多路径竞争”的结构，输出质量会有质的飞跃。这种思维方式，即使你不写代码，在日常使用 AI 工具时也完全可以借鉴。

七、衡量 Agent 成功的终极标准：outcome 加 budget

当被问到如何衡量 Agent 是否成功时，Angela 给出了一个非常简洁的哲学：最终一切都应该压缩成两个参数，一个可验证的结果（outcome），一个预算（budget）。其他所有东西，模型选择、架构设计、工具配置，都应该被自动解决。

她举了个编码场景的例子：最可验证的成功指标就是 PR 被合并了。不需要看中间过程，不需要评估 Agent 写了多少行代码，结果说明一切。

Dan 开玩笑说：Claude，帮我赚十亿美元，预算十块钱。Angela 笑着说：对，再加一句“不许犯错，开始吧”。

虽然是玩笑，但这个方向确实代表了一种很根本的范式转变。我们现在跟 AI 协作，还在花大量时间描述“怎么做”。未来的方向是，你只需要说清楚“要什么结果”和“愿意花多少资源”，中间的路径全部由 AI 自己规划。

八、Agent 的生命周期管理：一个被忽视的问题

Dan 提了一个很实际的问题：Agent 过时了怎么办？有些 Agent 可能还在 Slack 里每周发消息，但内容已经完全不对了。需不需要给 Agent 搞一个“退役仪式”？

Katelyn 说他们已经在做一些事情来缓解这个问题，比如提供升级 skills，帮你在新模型出来的时候快速迁移 Agent。还有一些比较激进的团队，会用 Agent 来监控 Agent，看哪些已经过时需要更新。

但她也坦承，模型升级对 Agent 来说经常是一个 breaking change。你可能需要重新设计整个 Agent，因为新模型的能力已经强到可以用完全不同的方式解决同一个问题。

这让我想到一个更普遍的道理：任何自动化系统都有保质期。AI 领域变化太快，今天最优的方案三个月后可能就是次优的。保持对新能力的敏感度，定期审视自己搭建的工作流是否还合理，这个习惯可能比搭建工作流本身更重要。

九、一年后的愿景：Claude 自己写自己的运行框架

最后聊到未来方向，Angela 说了一句很有野心的话：他们想让 Claude 足够理解自己，能自己决定用什么模型、自己拆分子 Agent、自己构建运行框架。用户只需要提供两样东西：一个可验证的目标，和一个预算。

Katelyn 从工程角度补充说，在那个世界里，Agent 会不断地自我重构、自我调整，平台必须能支撑这种动态负载。她说她最不希望看到的，就是平台的扩展能力成为瓶颈，限制了人们本来能用 Agent 做到的事情。

Angela 坦言一年内可能做不到完美，但 outcome 这一端应该能做得不错，budget 那一端可能还有一些误差范围。

这个愿景如果真能实现，意味着“平台”这个概念本身也会被大幅压缩。你不再需要理解什么是 harness、什么是 tool calling、什么是 prompt engineering。你只需要说清楚你要什么，愿意花多少钱，然后等着收货。

对于我们每个人来说，这意味着一件事：未来最稀缺的能力，可能不是“会用 AI 工具”，而是“能清晰定义一个好的 outcome”。知道自己到底要什么，能把目标描述得足够精确和可验证，这件事听起来简单，做起来其实非常难。但它可能是 AI 时代最核心的人类技能之一。

#How I AI##科技先锋官#

发布于山东