anthropic发了篇长文,介绍面向长期运行应用开发的Harness design
www.anthropic.com/engineering/harness-design-long-running-apps
长时间自主开发应用的效果很大程度上取决于模型外部的 harness 设计,而不只是模型本身。
单个 agent 做长任务,常见两类问题:
1. 上下文变长后逐渐失去连贯性,甚至因为快到上下文上限而提前收尾。
2. 自评偏乐观,尤其在设计这类主观任务里,模型很容易自我感觉良好。
对问题1 文章的解决办法是把“生成”和“评估”拆开,借鉴 GAN 的思路。
具体会扩展成 3 个 agent:
Planner:把一句话需求扩成完整产品规格
Generator:按阶段实现功能
Evaluator:像 QA 一样实际点应用、测接口、查数据库,并按阈值打分。
对旧模型,context reset + 结构化交接 比单纯压缩上下文更有效;对更强的新模型,这些脚手架可以逐步简化。
对问题2 文章里会先把“审美”拆成可评分标准:设计整体性、原创性、工艺、功能可用性。然后让生成 agent 做页面,让评估 agent 用 Playwright 实际打开页面、操作、截图、批评,再把反馈喂回去循环 5 到 15 轮。这样才会出现更大胆、更有辨识度的设计。
#How I AI#
发布于 山东
