Coinbase 分享了在 token 不断增长的情况下,AI 支出减半的方法:
主要是通过优化默认设置、智能路由与缓存机制。
优化默认设置(而非用量上限)——工程师可自主选择任意模型,但默认配置至关重要。Coinbase 正通过 LLM 网关实验性地将 GLM 5.2、Kimi 2.7 等开源模型设为默认选项,同时鼓励工程师根据任务特性选择最合适模型。由于 91%的员工从未触及用量上限,Coinbase 选择用更经济的默认模型替代降低上限、频繁预警的方式。值得注意的是,代码评审场景会调用多种模型实现交叉验证。
智能路由——在定制化部署架构中,Coinbase 会预处理提示词,并综合考量缓存命中率与模型成本,将请求路由至最适合任务的模型。例如规划环节可能需要前沿模型,但执行环节使用这类模型可能大材小用。最终,模型选择不应依赖人工决策——AI 完全能够实现这一流程的自动化。
优化缓存机制——缓存未命中是推高成本的最易发因素。Coinbase 的所有请求都具备缓存感知能力,会尽可能复用已预热的缓存。例如在 LibreChat 中实施完善后,缓存命中率从 5%跃升至 60%。
保持上下文精简——切换任务时开启全新会话,严格限定文件上下文范围,断开未使用的工具连接。关键不在于单纯压缩内容,而在于减少无效令牌消耗——要消除的是浪费,而非使用。
增强资源可视性——工程师可自由选用任意模型并使用所需 token 额度,但所有消耗都会清晰可见。Coinbase 期待在 AI 资源上的投入能带来相匹配的实际效益。
链接:x.com/brian_armstrong/status/2070670644577280109
发布于 北京
