欧巴聊AI 26-03-25 20:53
微博认证:AI博主

所有的 AI 大模型都是极度自恋的,如果你让同一个 AI 既当程序员又当测试,它会永远给自己的烂代码打满分。

想要突破 AI 编程的上限,必须引入对抗机制,让 AI 无情的审查自己。

在长周期的代码生成和前端设计中,AI 编程的开发者通常会面临两个致命的问题:上下文焦虑,千篇一律的 AI 味儿模版。

Anthropic 跑通了 Harness 工作流,能够自主运行长达数小时,生成功能丰富的全栈应用,并分享了内部的真实案例,这套框架由三个智能体组成的架构:

1、Planner 规划者:极度扩充产品域,仅需一句话提示词,它能自动生成详尽的PRD(如包含动画系统、音效和AI辅助的设计文档),防止后续开发缺乏约束。

2、Generator 生成者:负责分块编写代码,并在写代码前与评估者签订详细的迭代契约,定义交付标准。

3、Evaluator 评估者:它不是只看代码,而是配备了Playwright MCP,能像真人一样在浏览器里点击网页,拖拽UI,测试API。

以前端设计为例,确立四大评分维度:设计质量,原创性,工艺,功能性。通过量化评估和迭代反馈,成功突破了 AI 在前端设计中,表现出的平庸化倾向。

最重要的是,这套 Agent 框架(Harness)并不会因为 AI 模型变强而消亡,它的作用域是动态迁移的。比如从Claude Opus 4.5升级到4.6后,模型原生能力变强了,原本必需的基础设置可以被移除,但评估器依然在模型能力的边界上发挥着关键作用。

传送门:www.anthropic.com/engineering/harness-design-long-running-apps

#HOW I AI##科技先锋官##claude##harness# http://t.cn/AXfrHZB6

发布于 北京