微软取消Claude Code许可

最近有一条我觉得具有重大意义的新闻：微软正在取消内部 Claude Code 许可证，以在财年结束前削减运营开支。这件事之所以重要，不是因为这证明了 AI 不好用。恰恰相反，这标志了一个新的问题的产生：在 AI 时代，“好用”本身可能会变成财务问题。

传统软件业的逻辑是：软件写好以后，多一个人用，边际成本很低。公司买一个授权，员工用得越多越划算。但 AI 不一样，每一次生成的背后都在消耗算力，都在积累账单。打个比方，传统软件卖的是“座位”，AI 卖的像“燃料”。

这就是我想说的 the bitter lesson of the bitter lesson（苦涩教训的苦涩教训）。

Richard Sutton 在 2019 年提出著名的 “The Bitter Lesson”：AI 历史上，那些能利用更多计算资源的通用方法，长期总是战胜人工设计规则和领域知识。能够规模化的算法，比榨尽专家脑汁写出来的启发式规则更有效。这个教训之所以被叫做是“苦涩”的，因为它打击了工程师和研究者的自尊：我们以为自己写进去的知识很珍贵，但历史证明，真正厉害的是能随着计算资源增长而变强的系统。这是至今为止的 AI 浪潮的核心思想，而现在，我认为第二个苦涩教训来了：如果通用学习方法要靠无限扩大计算来获胜，那么它最终也会碰到计算本身的代价。

每个 token 都不是免费的。它有电费，有硬件折旧，有显存占用，有延迟，有供应商利润。所以，第二次苦涩教训并不是说我们要回到手工规则时代。真正的结论是：未来的胜利者，不只是最聪明的模型，而是能用最少推理资源完成最多有效工作的模型。

这也是我认为梁文锋最厉害的地方。他察觉到了 AI 下一阶段的瓶颈所在，DeepSeek V4 就是他对技术发展方向的评估结果：大幅降低超长上下文下的算力和显存需求，以至于改变 AI 的单位经济学。

如果一个模型能在更小的缓存、更少的带宽、更低的算力下维持长上下文推理，它就不仅仅是便宜一点的模型，而是更适合 agent 时代的模型。因为 agent 的典型工作方式，正是长上下文、多轮调用、读文件、看日志、查工具、写代码、再反思。持续劳动的系统，最终拼的一定是单位成本。未来真正强的 AI 公司，不会是最会堆参数的公司，而会是最会节省推理的公司。

发布于辽宁