翁荔拆解Scaling Laws

拖更了三年的博客，翁荔终于发出来了。

在这篇名为《Scaling Laws, Carefully》博客里，她直接把Scaling Laws从头拆到尾——

AI行业砸了数百亿美元押注的这条定律，远比任何人想象的脆弱。

一分钟速览：这篇万字长文讲了什么

一条公式管了全行业五年。Scaling Laws说「模型做大、数据喂多、算力堆够，性能就会按固定比例往上涨」。它让AI从玄学变成了能算账的生意，间接指挥了上千亿美金的流向。
OpenAI和DeepMind给出了相反的答案。同一个问题「算力预算怎么分配」，2020年OpenAI说模型该比数据涨得快，2022年DeepMind说两边得一起涨。后来发现，分歧的根源是一个参数统计口径的差异，加上实验规模不够大。
赢家的公式里也藏着bug。DeepMind那条被全行业照抄两年的最优配比，2024年被人逐行复现时发现：损失函数取了均值而不是求和，导致优化器提前停了，输出的参数根本不是最优解。
拿小模型的规律去预测大模型，要非常小心。这条曲线是在相对小的模型上拟合出来的，外推到万亿参数级别时，一个四舍五入的差别就能让结论差出一大截。博客里附了一个交互式模拟器，拖一下滑块就能亲眼看到。
还有个更根本的问题：数据快用完了。公式默认数据可以无限供应，但高质量文本是有限的。这也是为什么整个行业集体转向强化学习、测试时计算和合成数据。