默庵·超级个体 26-03-25 10:29
微博认证:微博新知博主 科技博主 头条文章作者 微博原创视频博主

Anthropic 官方博客发布了一篇文章《Harness design for long-running application development》。

Anthropic 的工程师 Prithvi Rajasekaran 分享了一篇很硬核的实战经验,讲的是怎么让 AI 自主完成长时间的复杂编程任务,比如从零搭建一个完整的全栈应用。

他发现,让 AI 单独干活有两个老大难问题。第一个是上下文窗口塞满之后,AI 会开始"走神",甚至提前收工,好像怕自己说太多似的,Anthropic 内部管这叫"上下文焦虑"。第二个是 AI 评价自己的作品时特别护短,明明做得一般,它也会夸自己干得漂亮。

为了解决这两个问题,他从 GAN(生成对抗网络)里借了个思路,搞了一套"生成器 + 评估器"的双 Agent 架构。生成器负责写代码,评估器负责挑毛病。关键是,让一个 AI 批评另一个 AI 的工作,比让它自我批评要容易调教得多。

他先在前端设计领域做了实验。Claude 默认生成的页面都很"安全",看着能用但毫无个性,典型的 AI 味道。他写了四条评分标准:设计质量、原创性、工艺和功能性,重点惩罚那种千篇一律的"AI 审美"。评估器拿着 Playwright 工具直接操作页面打分,反馈给生成器改进,来回迭代 5 到 15 轮。有一次做荷兰美术馆网站,第十轮的时候 AI 突然推翻了之前所有方案,做了一个 3D 空间体验,用 CSS 透视画了个棋盘格地板,画挂在墙上,通过门廊在展厅之间穿梭。这种创造性跳跃,单次生成根本不可能出现。

然后他把这套方法搬到了全栈开发上,变成了三个 Agent 的架构:规划器把一句话需求扩展成完整的产品规格书,生成器按计划一个功能一个功能地写代码,评估器用 Playwright 像真实用户一样点击测试。他用一句话"做一个 2D 复古游戏编辑器"做测试,单 Agent 跑了 20 分钟花 9 美元,做出来的游戏核心功能是坏的。三 Agent 架构跑了 6 小时花 200 美元,做出来的东西功能完整,还自带 AI 辅助生成关卡和角色的能力。

后来 Opus 4.6 发布了,模型本身变强了,他就开始做减法。去掉了 sprint 分段机制,因为新模型能连续工作两个多小时不跑偏。但评估器还是有用的,尤其是在任务复杂度超出模型舒适区的时候。他用这套简化后的架构让 AI 在浏览器里做了一个数字音频工作站(DAW),跑了将近 4 小时,花了 124 美元,最终成品能作曲、编曲、混音,内置的 AI Agent 还能通过自然语言帮你写旋律、加鼓点、调混响。

他总结了一个很重要的观点:Harness(脚手架)里的每个组件,本质上都是在补偿模型当前做不好的事情。模型一升级,就应该重新审视哪些组件还有用、哪些可以拆掉。有意思的设计空间不会随着模型进步而缩小,只会移动。AI 工程师要做的,就是不断找到下一个有价值的组合。

原文地址:www.anthropic.com/engineering/harness-design-long-running-apps

#科技先锋官# #How I AI#

发布于 山东