AI编程对抗机制突破

所有的 AI 大模型都是极度自恋的，如果你让同一个 AI 既当程序员又当测试，它会永远给自己的烂代码打满分。

想要突破 AI 编程的上限，必须引入对抗机制，让 AI 无情的审查自己。

在长周期的代码生成和前端设计中，AI 编程的开发者通常会面临两个致命的问题：上下文焦虑，千篇一律的 AI 味儿模版。

Anthropic 跑通了 Harness 工作流，能够自主运行长达数小时，生成功能丰富的全栈应用，并分享了内部的真实案例，这套框架由三个智能体组成的架构：

1、Planner 规划者：极度扩充产品域，仅需一句话提示词，它能自动生成详尽的PRD（如包含动画系统、音效和AI辅助的设计文档），防止后续开发缺乏约束。

2、Generator 生成者：负责分块编写代码，并在写代码前与评估者签订详细的迭代契约，定义交付标准。

3、Evaluator 评估者：它不是只看代码，而是配备了Playwright MCP，能像真人一样在浏览器里点击网页，拖拽UI，测试API。

以前端设计为例，确立四大评分维度：设计质量，原创性，工艺，功能性。通过量化评估和迭代反馈，成功突破了 AI 在前端设计中，表现出的平庸化倾向。

最重要的是，这套 Agent 框架（Harness）并不会因为 AI 模型变强而消亡，它的作用域是动态迁移的。比如从Claude Opus 4.5升级到4.6后，模型原生能力变强了，原本必需的基础设置可以被移除，但评估器依然在模型能力的边界上发挥着关键作用。

传送门：www.anthropic.com/engineering/harness-design-long-running-apps

#HOW I AI##科技先锋官##claude##harness# http://t.cn/AXfrHZB6

发布于北京