Coinbase AI支出减半

Coinbase 分享了在 token 不断增长的情况下，AI 支出减半的方法：

主要是通过优化默认设置、智能路由与缓存机制。

优化默认设置（而非用量上限）——工程师可自主选择任意模型，但默认配置至关重要。Coinbase 正通过 LLM 网关实验性地将 GLM 5.2、Kimi 2.7 等开源模型设为默认选项，同时鼓励工程师根据任务特性选择最合适模型。由于 91%的员工从未触及用量上限，Coinbase 选择用更经济的默认模型替代降低上限、频繁预警的方式。值得注意的是，代码评审场景会调用多种模型实现交叉验证。

智能路由——在定制化部署架构中，Coinbase 会预处理提示词，并综合考量缓存命中率与模型成本，将请求路由至最适合任务的模型。例如规划环节可能需要前沿模型，但执行环节使用这类模型可能大材小用。最终，模型选择不应依赖人工决策——AI 完全能够实现这一流程的自动化。

优化缓存机制——缓存未命中是推高成本的最易发因素。Coinbase 的所有请求都具备缓存感知能力，会尽可能复用已预热的缓存。例如在 LibreChat 中实施完善后，缓存命中率从 5%跃升至 60%。

保持上下文精简——切换任务时开启全新会话，严格限定文件上下文范围，断开未使用的工具连接。关键不在于单纯压缩内容，而在于减少无效令牌消耗——要消除的是浪费，而非使用。

增强资源可视性——工程师可自由选用任意模型并使用所需 token 额度，但所有消耗都会清晰可见。Coinbase 期待在 AI 资源上的投入能带来相匹配的实际效益。

链接：x.com/brian_armstrong/status/2070670644577280109

发布于北京