AI产品阿颖
26-05-20 20:04 微博认证:科技博主

做 Harness 踩过的坑。

同一个 Prompt、同一个模型、同一个任务,让四家 Agent 跑一遍,账单能差出 6 倍。模型都一样,凭什么差这么多?

OpenClacky 是一个开源的 AI Agent,背后的团队最近做了一次横评,把这事儿摆到了台面上。差距全在一个叫 Harness 的地方。

Harness 是模型之外的一整套工程,Prompt 怎么拼、工具怎么设计、cache 怎么命中、上下文怎么压缩。模型再聪明,这些东西做不好,账单和体验都会很难看。

这事儿他们走过两段弯路才想明白。

第一代做 RAG,没走通。第二代做多 Agent 工作流,更糟。第三代从零用 Ruby 重写,围着两件事来组织,cache 命中率和工具稳定性。

下面这篇文章不讲代码,只讲他们团队总结的的几个核心经验。包括Cache 标记为什么要标两条不标三条,system prompt 为什么一个字节都不能动,压缩为什么挑用户走神那 90 秒做掉。

每一条背后都是真金白银烧出来的判断。http://t.cn/AX6PSHFU

发布于 北京