NeuNeu挑战传统缩放定律

[LG]《Neural Neural Scaling Laws》M Y. Hu, J Pan, A R Jhaveri, N Lourie... [New York University] (2026)

缩放定律（Scaling Laws）一直被视为大模型开发的北极星，但它正面临一场“中年危机”。虽然预训练的平均损失（Loss）总是遵循平滑的幂律曲线，但具体到下游任务时，表现却千差万别：有的任务随规模突飞猛进，有的陷入停滞，有的甚至在规模扩大后表现更差。

传统的缩放定律试图用简单的数学公式来捕捉这种复杂的动态，但这本质上是一种过度简化。平均损失作为一个指标，就像是一个城市的平均气温，它抹去了太多局部的细节，无法告诉我们模型在特定能力上的真实演化。

为了打破这种局限，本文提出了 NeuNeu（Neural Neural Scaling Laws）。这是一种专门预测“缩放定律”的神经网络。它不再预设任何固定的函数形式，而是将性能预测转化为一个时间序列的外推问题。

NeuNeu 的核心创新在于它拒绝了“平均值”的诱惑。它直接引入了 Token 级别的验证概率分布。通过卷积神经网络（CNN）编码器捕捉损失分布的细微形状变化，NeuNeu 能够感知到那些被平均值掩盖的性能信号。这种粒度让模型能够识别出模型能力的细微觉醒。

实验结果证明了数据驱动方法的优越性：在 66 个下游任务中，NeuNeu 的预测误差比传统的逻辑缩放定律降低了 38%。更令人惊讶的是它的泛化能力——即使面对从未见过的任务类型或完全不同的模型家族（如 Pythia），它依然能保持极高的预测精度。

预测的本质是为了更好地决策。在实际开发中，NeuNeu 的排序准确率达到了 75.6%，比基准线提升了 12.3%。这意味着开发者可以在训练初期就精准预判哪种超参数配置或架构更有潜力，从而在昂贵的算力竞赛中及时止损或加码。

这不仅是一个工具的进步，更是一种范式的转移。NeuNeu 可以被视为一种“训练动力学的基础模型”。它证明了我们可以通过学习开源社区积累的训练轨迹，将前人的算力投入转化为可重用的预测资产。

这也再次印证了那个“苦涩的教训”：在处理复杂系统时，利用大规模计算和数据学习到的通用方法，终将战胜人类手工设计的简单参数模型。缩放定律本身，也正在从“经验公式”进化为“神经模型”。

论文链接：arxiv.org/abs/2601.19831

发布于北京