26-05-24 01:56 微博认证:军事博主

最近有一条我觉得具有重大意义的新闻:微软正在取消内部 Claude Code 许可证,以在财年结束前削减运营开支。这件事之所以重要,不是因为这证明了 AI 不好用。恰恰相反,这标志了一个新的问题的产生:在 AI 时代,“好用”本身可能会变成财务问题。

传统软件业的逻辑是:软件写好以后,多一个人用,边际成本很低。公司买一个授权,员工用得越多越划算。但 AI 不一样,每一次生成的背后都在消耗算力,都在积累账单。打个比方,传统软件卖的是“座位”,AI 卖的像“燃料”。

这就是我想说的 the bitter lesson of the bitter lesson(苦涩教训的苦涩教训)。

Richard Sutton 在 2019 年提出著名的 “The Bitter Lesson”:AI 历史上,那些能利用更多计算资源的通用方法,长期总是战胜人工设计规则和领域知识。能够规模化的算法,比榨尽专家脑汁写出来的启发式规则更有效。这个教训之所以被叫做是“苦涩”的,因为它打击了工程师和研究者的自尊:我们以为自己写进去的知识很珍贵,但历史证明,真正厉害的是能随着计算资源增长而变强的系统。这是至今为止的 AI 浪潮的核心思想,而现在,我认为第二个苦涩教训来了:如果通用学习方法要靠无限扩大计算来获胜,那么它最终也会碰到计算本身的代价。

每个 token 都不是免费的。它有电费,有硬件折旧,有显存占用,有延迟,有供应商利润。所以,第二次苦涩教训并不是说我们要回到手工规则时代。真正的结论是:未来的胜利者,不只是最聪明的模型,而是能用最少推理资源完成最多有效工作的模型。

这也是我认为梁文锋最厉害的地方。他察觉到了 AI 下一阶段的瓶颈所在,DeepSeek V4 就是他对技术发展方向的评估结果:大幅降低超长上下文下的算力和显存需求,以至于改变 AI 的单位经济学。

如果一个模型能在更小的缓存、更少的带宽、更低的算力下维持长上下文推理,它就不仅仅是便宜一点的模型,而是更适合 agent 时代的模型。因为 agent 的典型工作方式,正是长上下文、多轮调用、读文件、看日志、查工具、写代码、再反思。持续劳动的系统,最终拼的一定是单位成本。未来真正强的 AI 公司,不会是最会堆参数的公司,而会是最会节省推理的公司。

发布于 辽宁