四家Agent成本差六倍

做 Harness 踩过的坑。

同一个 Prompt、同一个模型、同一个任务，让四家 Agent 跑一遍，账单能差出 6 倍。模型都一样，凭什么差这么多？

OpenClacky 是一个开源的 AI Agent，背后的团队最近做了一次横评，把这事儿摆到了台面上。差距全在一个叫 Harness 的地方。

Harness 是模型之外的一整套工程，Prompt 怎么拼、工具怎么设计、cache 怎么命中、上下文怎么压缩。模型再聪明，这些东西做不好，账单和体验都会很难看。

这事儿他们走过两段弯路才想明白。

第一代做 RAG，没走通。第二代做多 Agent 工作流，更糟。第三代从零用 Ruby 重写，围着两件事来组织，cache 命中率和工具稳定性。

下面这篇文章不讲代码，只讲他们团队总结的的几个核心经验。包括Cache 标记为什么要标两条不标三条，system prompt 为什么一个字节都不能动，压缩为什么挑用户走神那 90 秒做掉。

每一条背后都是真金白银烧出来的判断。http://t.cn/AX6PSHFU

发布于北京