Harness design应用开发解析

anthropic发了篇长文，介绍面向长期运行应用开发的Harness design
www.anthropic.com/engineering/harness-design-long-running-apps
长时间自主开发应用的效果很大程度上取决于模型外部的 harness 设计，而不只是模型本身。
单个 agent 做长任务，常见两类问题：
1. 上下文变长后逐渐失去连贯性，甚至因为快到上下文上限而提前收尾。
2. 自评偏乐观，尤其在设计这类主观任务里，模型很容易自我感觉良好。

对问题1 文章的解决办法是把“生成”和“评估”拆开，借鉴 GAN 的思路。
具体会扩展成 3 个 agent：
Planner：把一句话需求扩成完整产品规格
Generator：按阶段实现功能
Evaluator：像 QA 一样实际点应用、测接口、查数据库，并按阈值打分。
对旧模型，context reset + 结构化交接比单纯压缩上下文更有效；对更强的新模型，这些脚手架可以逐步简化。

对问题2 文章里会先把“审美”拆成可评分标准：设计整体性、原创性、工艺、功能可用性。然后让生成 agent 做页面，让评估 agent 用 Playwright 实际打开页面、操作、截图、批评，再把反馈喂回去循环 5 到 15 轮。这样才会出现更大胆、更有辨识度的设计。

#How I AI#

发布于山东