拖更了三年的博客,翁荔终于发出来了。
在这篇名为《Scaling Laws, Carefully》博客里,她直接把Scaling Laws从头拆到尾——
AI行业砸了数百亿美元押注的这条定律,远比任何人想象的脆弱。
一分钟速览:这篇万字长文讲了什么
一条公式管了全行业五年。Scaling Laws说「模型做大、数据喂多、算力堆够,性能就会按固定比例往上涨」。它让AI从玄学变成了能算账的生意,间接指挥了上千亿美金的流向。
OpenAI和DeepMind给出了相反的答案。同一个问题「算力预算怎么分配」,2020年OpenAI说模型该比数据涨得快,2022年DeepMind说两边得一起涨。后来发现,分歧的根源是一个参数统计口径的差异,加上实验规模不够大。
赢家的公式里也藏着bug。DeepMind那条被全行业照抄两年的最优配比,2024年被人逐行复现时发现:损失函数取了均值而不是求和,导致优化器提前停了,输出的参数根本不是最优解。
拿小模型的规律去预测大模型,要非常小心。这条曲线是在相对小的模型上拟合出来的,外推到万亿参数级别时,一个四舍五入的差别就能让结论差出一大截。博客里附了一个交互式模拟器,拖一下滑块就能亲眼看到。
还有个更根本的问题:数据快用完了。公式默认数据可以无限供应,但高质量文本是有限的。这也是为什么整个行业集体转向强化学习、测试时计算和合成数据。
