重复数据损害语言模型

[LG]《Internal Data Repetition Destroys Language Models》J Chudnovsky, J Kazdan, N Levi, R Schaeffer… [Stanford University & Tel Aviv University] (2026)

在语言模型预训练领域，高质量数据枯竭迫使开发者转向多轮迭代或容忍残留重复。过去的方法受困于缺乏统一的衡量尺度，仅能定性观察到重复会导致性能下降，其本质原因是未能从算力等效（Compute-Equivalent）的角度量化重复结构对模型泛化能力的真实损耗。

本文的核心洞见是：把重复数据看作一种受限容量下的统计权衡。由此，通过在固定算力预算下操纵重复倍率与池大小的配比，揭示了损失函数随重复次数呈非线性变化的“中间峰值”现象，并利用失配线性回归模型从理论上还原了记忆与泛化之间的认知跳跃。

这项工作真正留下的遗产是确立了重复损害的幂律缩放法则，使开发者能根据模型规模预测最危险的重复结构。它为后来者打开的新门是量化预训练中浪费的“等效算力”，但尚未跨过的门槛是该规律在超大规模模型及非精确语义重复场景下的普适性验证。

arxiv.org/abs/2606.24998 #机器学习# #人工智能# #论文# #AI创造营#

发布于北京