科技锐评 26-03-28 22:12
微博认证:微博公益合伙人 科技博主 微博原创视频博主

Anthropic 工程师做了个挺有意思的实验。

让 Claude 自己写代码,自己审代码,结果发现——自己审自己的时候,基本都在夸写得真好,哪怕代码一堆 bug。

后来改成两个 Agent 对抗:一个负责写,一个负责挑刺。写的那个知道有人要刁难它,反而认真起来了。

前端设计实验里,评估器用 Playwright 真的去点页面,截图、找问题、打分。一轮不行就再来一轮,有时候迭代 15 次。有个博物馆网站的案例,第 10 轮突然开了窍,把整个设计推翻重做成 3D 空间体验,这种跳跃单靠一次生成根本出不来。

后来扩展到全栈开发,加了个 Planner 先把一句话需求扩成完整规格,Generator 一个功能一个功能做,Evaluator 每轮都用 Playwright 点一遍找 bug。

对比挺悬殊:单 Agent 20 分钟花 9 刀,做出来的游戏引擎核心功能都是坏的;完整 Harness 跑 6 小时花 200 刀,但东西真能玩。

有意思的是,模型越强,这套框架反而可以越简单。换成 Opus 4.6 后,中间的 Sprint 结构直接砍掉,成本降到 4 小时 124 刀,质量没怎么掉。

作者有句话我挺认同:模型变强,Harness 的价值空间不会消失,只是会移动。AI 工程师的工作就是不断找到下一个有效的组合方式。

说到底,现在的模型还是得有人盯着。不是不信任,是它真的会自我感觉良好。

#ai工程化# #多Agent架构# #Claude#

发布于 北京