神经网络缩放定律起源研究发布

[LG]《On the origin of neural scaling laws: from random graphs to natural language》M Barkeshli, A Alfarano, A Gromov [Meta Superintelligence Lab & Axiom Math] (2026)

神经网络缩放定律（Scaling Laws）是现代AI革命的基石，它赋予了开发者预测模型性能的超能力。但一个核心问题始终悬而未决：这些定律究竟源于数据本身的结构，还是模型学习机制的必然？Meta FAIR与马里兰大学的最新研究《On the origin of neural scaling laws: from random graphs to natural language》为我们揭开了迷雾。

缩放定律的起源之谜。
长期以来，主流观点认为缩放定律之所以存在，是因为自然语言或图像数据本身具有幂律结构（如齐普夫定律）。然而，这项研究提出了一个颠覆性的实验：在没有任何幂律结构的随机图（Erdös-Renyi图）上训练Transformer进行随机游走预测。结果令人震惊：即便数据平庸且缺乏结构，缩放定律依然稳健地出现了。这意味着，缩放定律并非数据的简单投影，而是神经网络在处理序列预测任务时的一种内生属性。

复杂度的单调演进。
研究者通过系统性地“拨减”语言的复杂度，构建了一个从随机图随机游走、二元语法（Bigrams）到合成语言（TnL-Language），再到真实自然语言的复杂度频谱。实验发现，随着数据复杂度（以熵为度量）的增加，缩放指数呈现出清晰的单调演化。这揭示了一个深刻的洞察：复杂度并非抽象的概念，它直接决定了模型在单位算力下获取知识的效率。

方法论的批判性审视。
目前业界广泛推崇的“Chinchilla 2D拟合公式”可能并非最优。研究指出，如果不计入不可约损失（Irreducible Loss），我们会严重低估缩放指数，甚至得出错误的预测。相比之下，使用简单的神经网络回归或核回归方法，在拟合损失曲线时的表现远优于传统的参数化公式。在追求极致预测准确性的今天，我们或许应该摒弃对简单公式的执念，回归到更标准的机器学习回归手段。

极简模型的强大复现力。
一个极具启发性的发现是：仅需2层Transformer和100个Token的上下文长度，就能完美复现OpenAI与DeepMind关于缩放定律的核心争议。研究证实，Kaplan与Chinchilla定律之间的主要分歧，很大程度上取决于是否计入了嵌入层参数。这说明缩放定律的本质规律在极小规模时就已经定型，无需昂贵的超大规模实验即可进行深入研究。

参数效率的新边界。
研究提供了初步证据显示，极大更新参数化（muP）可能比标准参数化具有更高的参数效率。在muP框架下，计算最优的路径并非简单的“每参数对应固定数量的Token”。这一发现暗示，通过改进优化算法和参数化方案，我们有望打破现有的缩放限制，以更低的成本实现更强的智能。

深度思考与启示。
缩放定律不仅是算力的堆砌，更是模型在损失景观中开辟路径的过程。当模型规模增大，并非仅仅是容量增加，而是低损失解的盆地以某种幂律方式开启，使得梯度下降更加高效。如果说数据是燃料，架构是引擎，那么缩放定律就是描述这场化学反应最本质的物理方程。

理解了缩放定律的起源，我们才能从单纯的“规模信徒”转变为“效率的设计者”。智能的演进或许不在于模仿数据的复杂，而在于模型如何优雅地消化这些复杂。

arxiv.org/abs/2601.10684

发布于北京