默庵·超级个体
26-05-15 12:32 微博认证:微博新知博主 科技博主 头条文章作者 微博原创视频博主

最近听了一期很有信息密度的播客,来自 Every 的 Dan Shipper,他采访了 Anthropic 平台团队的两位核心负责人:产品负责人 Angela Jiang 和工程负责人 Katelyn Lesse。整期对话围绕 Claude Managed Agents 展开,从设计哲学到基础设施挑战,从实际应用案例到未来一年的方向,信息量非常大。我把里面最有价值的几个观点整理出来,尽量讲得通俗一些。

一、平台的演化轨迹:从补全接口到自主 Agent 基础设施

Angela 回顾了 Claude 平台的演化路径。最早期就是一个文本补全接口,你发一段 prompt,它返回一段文字。后来加了工具调用、对话状态管理这些能力。再到现在的 Managed Agents,本质上是一个跑在云端的 Claude,带着文件系统、代码执行、网页搜索等一整套能力,可以自主运行、弹性伸缩。

这个演化背后有一条清晰的主线:模型越来越强、越来越自主,平台就得跟着往更高层的抽象走。最终目标始终是一个:让用户用最少的力气,拿到最好的结果。

这其实跟我们日常工作中的工具选择逻辑是一样的。当一个工具足够强大的时候,围绕它的基础设施就会自然生长出来,把那些重复性的、低价值的配置工作吞掉。你要做的,就是尽早理解这个趋势,把精力放在定义目标上,而不是纠结于实现细节。

二、Harness 和模型正在变成一个整体

这是整期访谈里我觉得最有洞察力的一个观点。

Angela 说,以前大家习惯搭一个非常通用的运行框架(harness),然后随便换模型进去跑。GPT、Claude、Gemini,哪个好用就换哪个。这在早期模型能力差异不大的时候是合理的。

但现在情况变了。各家模型走的技术路线差异越来越大,Claude 特别擅长文件系统操作,其他模型可能在别的方向有优势。如果你想榨出最好的效果,就得针对特定模型做深度的 harness 工程。他们内部测试过不同的 harness 方案,同一个模型在不同 harness 下的表现差异非常大。

所以未来你换的单位应该是“Agent”这个整体,也就是 harness 加模型的组合,而不是单独在底层换模型。

这个观点放到更大的视角来看也很有意思。很多人在选 AI 工具的时候,总是纠结于“哪个模型最强”。但实际上,模型只是其中一个变量。围绕模型的提示词设计、工具配置、工作流编排,这些加在一起才构成真正的能力单元。与其追着模型跑,不如把精力花在打磨整个系统的配合上。

三、真正卡住所有人的是基础设施,不是 Harness 工程

Katelyn 聊了一个很多开发者都会踩的坑。她说大多数人以为做 Agent 最难的部分是 harness 工程,就是怎么调 prompt、怎么管理上下文窗口、怎么做 prompt caching 这些。但实际上,真正卡住所有人的是基础设施。

具体来说就是:怎么让 Agent 持续运行不挂掉?沙箱断连了整个 Agent 就死了怎么办?怎么安全隔离?怎么存储会话数据?怎么弹性伸缩?

Anthropic 自己内部反复踩了这个坑之后,决定把这层基础设施做成产品开放出来。这就是 Managed Agents 的由来。他们自己用 Mac Mini 跑 Agent、用千行 Python 文件做编排的经历,和外面很多团队一模一样。

这个现象其实在技术领域反复出现。原型阶段什么都好说,一旦要上生产环境、要 7x24 小时稳定运行、要支撑多用户并发,基础设施的复杂度就会指数级上升。很多看起来“能跑”的 demo,距离真正“能用”还有巨大的鸿沟。

四、团队级 Agent 和个人效率工具是两种完全不同的形态

Angela 特别强调了一点:个人生产力工具和团队级 Agent 的需求完全不同。

个人层面,你用 Claude Code 或者各种 AI 工具提升自己的效率,这很好。但一旦到了团队层面,事情就复杂得多了。Agent 不能跑在你的笔记本上,多个人要协作使用同一个 Agent,多个 Agent 之间要互相配合,还需要人类在关键节点介入审批。

她提到 Vercel 的 CEO 把公司内部描述为一个“AI 软件工厂”,每个流程都有 Agent 在参与。这种组织形态需要的基础设施层级,远远超出个人工具的范畴。

这让我想到一个很现实的问题:很多公司现在都在推“全员用 AI”,但大部分还停留在个人效率提升的阶段。真正的组织级 AI 化,需要的是流程重构、Agent 编排、权限管理、人机协作机制这些更系统性的东西。个人会用 AI 和组织会用 AI,中间差着好几个量级的复杂度。

五、法务审核营销文案:一个真实的内部 Agent 案例

Katelyn 举了一个 Anthropic 内部的实际案例。以前营销团队写完文案,要提工单给法务审核,来回可能好几天。现在他们搭了一个 Agent,营销人员写完直接提交,Agent 先做第一轮审核。如果明确没问题就直接放行,拿不准的才推给人类法务。

更有意思的是后续发生的事。使用这个工具的非技术人员,觉得某些地方可以改进,就自己打开 Claude Code 给 Agent 提了 PR。整个系统变成了一个自我进化的闭环。

Dan 追问了一个很尖锐的问题:如果没有人负责维护这个 Agent,它会不会很快就过时变成一个“僵尸”?Angela 的回答是,他们在系统里加了多层抽象。终端用户不需要直接改代码,他们跟 Claude 对话就行,Claude 会判断该怎么处理他们的需求。本质上是 managed agents 套 managed agents,每一层解决不同层级的问题。

这个案例特别值得琢磨。它说明 Agent 最有价值的应用场景,往往是那些跨部门协作、流程固定但耗时、需要专业判断但大部分情况可以自动化的环节。而且 Agent 一旦部署,它的维护和进化机制同样重要。一个没人管的 Agent,很快就会变成负担。

六、多智能体编排:不同架构适合不同场景

Angela 聊到他们刚上线的多智能体编排能力,提到了几种很有意思的模式:

第一种是 Advisor 模式,把执行和建议分离。一个 Agent 负责干活,另一个负责提供策略指导。

第二种是对抗模式,一个 Agent 生成内容,另一个专门挑毛病。这种特别适合需要高质量输出的场景。

第三种是 Swarm 模式,把任务拆成很多小块,一群 Agent 各自处理再汇总。这种适合 bug hunting 或者大规模信息搜集。

还有 Best-of-N 模式,多个 Agent 各自尝试,最后选最好的那个结果。

Angela 说,如果能把这些基础原语做得像乐高积木一样灵活,人们就能在更高的层面上组合出各种策略,而且在多个抽象层级上都能持续优化。

这个思路对我们理解 AI 协作也有启发。很多时候我们只是让一个 AI 做一件事,但如果你能设计出“生成加审核”或者“多路径竞争”的结构,输出质量会有质的飞跃。这种思维方式,即使你不写代码,在日常使用 AI 工具时也完全可以借鉴。

七、衡量 Agent 成功的终极标准:outcome 加 budget

当被问到如何衡量 Agent 是否成功时,Angela 给出了一个非常简洁的哲学:最终一切都应该压缩成两个参数,一个可验证的结果(outcome),一个预算(budget)。其他所有东西,模型选择、架构设计、工具配置,都应该被自动解决。

她举了个编码场景的例子:最可验证的成功指标就是 PR 被合并了。不需要看中间过程,不需要评估 Agent 写了多少行代码,结果说明一切。

Dan 开玩笑说:Claude,帮我赚十亿美元,预算十块钱。Angela 笑着说:对,再加一句“不许犯错,开始吧”。

虽然是玩笑,但这个方向确实代表了一种很根本的范式转变。我们现在跟 AI 协作,还在花大量时间描述“怎么做”。未来的方向是,你只需要说清楚“要什么结果”和“愿意花多少资源”,中间的路径全部由 AI 自己规划。

八、Agent 的生命周期管理:一个被忽视的问题

Dan 提了一个很实际的问题:Agent 过时了怎么办?有些 Agent 可能还在 Slack 里每周发消息,但内容已经完全不对了。需不需要给 Agent 搞一个“退役仪式”?

Katelyn 说他们已经在做一些事情来缓解这个问题,比如提供升级 skills,帮你在新模型出来的时候快速迁移 Agent。还有一些比较激进的团队,会用 Agent 来监控 Agent,看哪些已经过时需要更新。

但她也坦承,模型升级对 Agent 来说经常是一个 breaking change。你可能需要重新设计整个 Agent,因为新模型的能力已经强到可以用完全不同的方式解决同一个问题。

这让我想到一个更普遍的道理:任何自动化系统都有保质期。AI 领域变化太快,今天最优的方案三个月后可能就是次优的。保持对新能力的敏感度,定期审视自己搭建的工作流是否还合理,这个习惯可能比搭建工作流本身更重要。

九、一年后的愿景:Claude 自己写自己的运行框架

最后聊到未来方向,Angela 说了一句很有野心的话:他们想让 Claude 足够理解自己,能自己决定用什么模型、自己拆分子 Agent、自己构建运行框架。用户只需要提供两样东西:一个可验证的目标,和一个预算。

Katelyn 从工程角度补充说,在那个世界里,Agent 会不断地自我重构、自我调整,平台必须能支撑这种动态负载。她说她最不希望看到的,就是平台的扩展能力成为瓶颈,限制了人们本来能用 Agent 做到的事情。

Angela 坦言一年内可能做不到完美,但 outcome 这一端应该能做得不错,budget 那一端可能还有一些误差范围。

这个愿景如果真能实现,意味着“平台”这个概念本身也会被大幅压缩。你不再需要理解什么是 harness、什么是 tool calling、什么是 prompt engineering。你只需要说清楚你要什么,愿意花多少钱,然后等着收货。

对于我们每个人来说,这意味着一件事:未来最稀缺的能力,可能不是“会用 AI 工具”,而是“能清晰定义一个好的 outcome”。知道自己到底要什么,能把目标描述得足够精确和可验证,这件事听起来简单,做起来其实非常难。但它可能是 AI 时代最核心的人类技能之一。

#How I AI##科技先锋官#

发布于 山东