做 Harness 踩过的坑。
同一个 Prompt、同一个模型、同一个任务,让四家 Agent 跑一遍,账单能差出 6 倍。模型都一样,凭什么差这么多?
OpenClacky 是一个开源的 AI Agent,背后的团队最近做了一次横评,把这事儿摆到了台面上。差距全在一个叫 Harness 的地方。
Harness 是模型之外的一整套工程,Prompt 怎么拼、工具怎么设计、cache 怎么命中、上下文怎么压缩。模型再聪明,这些东西做不好,账单和体验都会很难看。
这事儿他们走过两段弯路才想明白。
第一代做 RAG,没走通。第二代做多 Agent 工作流,更糟。第三代从零用 Ruby 重写,围着两件事来组织,cache 命中率和工具稳定性。
下面这篇文章不讲代码,只讲他们团队总结的的几个核心经验。包括Cache 标记为什么要标两条不标三条,system prompt 为什么一个字节都不能动,压缩为什么挑用户走神那 90 秒做掉。
每一条背后都是真金白银烧出来的判断。http://t.cn/AX6PSHFU
发布于 北京
