Anthropic工程师分享AI编程方法

Anthropic 官方博客发布了一篇文章《Harness design for long-running application development》。

Anthropic 的工程师 Prithvi Rajasekaran 分享了一篇很硬核的实战经验，讲的是怎么让 AI 自主完成长时间的复杂编程任务，比如从零搭建一个完整的全栈应用。

他发现，让 AI 单独干活有两个老大难问题。第一个是上下文窗口塞满之后，AI 会开始"走神"，甚至提前收工，好像怕自己说太多似的，Anthropic 内部管这叫"上下文焦虑"。第二个是 AI 评价自己的作品时特别护短，明明做得一般，它也会夸自己干得漂亮。

为了解决这两个问题，他从 GAN（生成对抗网络）里借了个思路，搞了一套"生成器 + 评估器"的双 Agent 架构。生成器负责写代码，评估器负责挑毛病。关键是，让一个 AI 批评另一个 AI 的工作，比让它自我批评要容易调教得多。

他先在前端设计领域做了实验。Claude 默认生成的页面都很"安全"，看着能用但毫无个性，典型的 AI 味道。他写了四条评分标准：设计质量、原创性、工艺和功能性，重点惩罚那种千篇一律的"AI 审美"。评估器拿着 Playwright 工具直接操作页面打分，反馈给生成器改进，来回迭代 5 到 15 轮。有一次做荷兰美术馆网站，第十轮的时候 AI 突然推翻了之前所有方案，做了一个 3D 空间体验，用 CSS 透视画了个棋盘格地板，画挂在墙上，通过门廊在展厅之间穿梭。这种创造性跳跃，单次生成根本不可能出现。

然后他把这套方法搬到了全栈开发上，变成了三个 Agent 的架构：规划器把一句话需求扩展成完整的产品规格书，生成器按计划一个功能一个功能地写代码，评估器用 Playwright 像真实用户一样点击测试。他用一句话"做一个 2D 复古游戏编辑器"做测试，单 Agent 跑了 20 分钟花 9 美元，做出来的游戏核心功能是坏的。三 Agent 架构跑了 6 小时花 200 美元，做出来的东西功能完整，还自带 AI 辅助生成关卡和角色的能力。

后来 Opus 4.6 发布了，模型本身变强了，他就开始做减法。去掉了 sprint 分段机制，因为新模型能连续工作两个多小时不跑偏。但评估器还是有用的，尤其是在任务复杂度超出模型舒适区的时候。他用这套简化后的架构让 AI 在浏览器里做了一个数字音频工作站（DAW），跑了将近 4 小时，花了 124 美元，最终成品能作曲、编曲、混音，内置的 AI Agent 还能通过自然语言帮你写旋律、加鼓点、调混响。

他总结了一个很重要的观点：Harness（脚手架）里的每个组件，本质上都是在补偿模型当前做不好的事情。模型一升级，就应该重新审视哪些组件还有用、哪些可以拆掉。有意思的设计空间不会随着模型进步而缩小，只会移动。AI 工程师要做的，就是不断找到下一个有价值的组合。

原文地址：www.anthropic.com/engineering/harness-design-long-running-apps

#科技先锋官# #How I AI#

发布于山东