[LG]《On the origin of neural scaling laws: from random graphs to natural language》M Barkeshli, A Alfarano, A Gromov [Meta Superintelligence Lab & Axiom Math] (2026)
神经网络缩放定律(Scaling Laws)是现代AI革命的基石,它赋予了开发者预测模型性能的超能力。但一个核心问题始终悬而未决:这些定律究竟源于数据本身的结构,还是模型学习机制的必然?Meta FAIR与马里兰大学的最新研究《On the origin of neural scaling laws: from random graphs to natural language》为我们揭开了迷雾。
缩放定律的起源之谜。
长期以来,主流观点认为缩放定律之所以存在,是因为自然语言或图像数据本身具有幂律结构(如齐普夫定律)。然而,这项研究提出了一个颠覆性的实验:在没有任何幂律结构的随机图(Erdös-Renyi图)上训练Transformer进行随机游走预测。结果令人震惊:即便数据平庸且缺乏结构,缩放定律依然稳健地出现了。这意味着,缩放定律并非数据的简单投影,而是神经网络在处理序列预测任务时的一种内生属性。
复杂度的单调演进。
研究者通过系统性地“拨减”语言的复杂度,构建了一个从随机图随机游走、二元语法(Bigrams)到合成语言(TnL-Language),再到真实自然语言的复杂度频谱。实验发现,随着数据复杂度(以熵为度量)的增加,缩放指数呈现出清晰的单调演化。这揭示了一个深刻的洞察:复杂度并非抽象的概念,它直接决定了模型在单位算力下获取知识的效率。
方法论的批判性审视。
目前业界广泛推崇的“Chinchilla 2D拟合公式”可能并非最优。研究指出,如果不计入不可约损失(Irreducible Loss),我们会严重低估缩放指数,甚至得出错误的预测。相比之下,使用简单的神经网络回归或核回归方法,在拟合损失曲线时的表现远优于传统的参数化公式。在追求极致预测准确性的今天,我们或许应该摒弃对简单公式的执念,回归到更标准的机器学习回归手段。
极简模型的强大复现力。
一个极具启发性的发现是:仅需2层Transformer和100个Token的上下文长度,就能完美复现OpenAI与DeepMind关于缩放定律的核心争议。研究证实,Kaplan与Chinchilla定律之间的主要分歧,很大程度上取决于是否计入了嵌入层参数。这说明缩放定律的本质规律在极小规模时就已经定型,无需昂贵的超大规模实验即可进行深入研究。
参数效率的新边界。
研究提供了初步证据显示,极大更新参数化(muP)可能比标准参数化具有更高的参数效率。在muP框架下,计算最优的路径并非简单的“每参数对应固定数量的Token”。这一发现暗示,通过改进优化算法和参数化方案,我们有望打破现有的缩放限制,以更低的成本实现更强的智能。
深度思考与启示。
缩放定律不仅是算力的堆砌,更是模型在损失景观中开辟路径的过程。当模型规模增大,并非仅仅是容量增加,而是低损失解的盆地以某种幂律方式开启,使得梯度下降更加高效。如果说数据是燃料,架构是引擎,那么缩放定律就是描述这场化学反应最本质的物理方程。
理解了缩放定律的起源,我们才能从单纯的“规模信徒”转变为“效率的设计者”。智能的演进或许不在于模仿数据的复杂,而在于模型如何优雅地消化这些复杂。
arxiv.org/abs/2601.10684
