大模型深度缩放研究揭示

[LG]《Inverse Depth Scaling From Most Layers Being Similar》Y Liu, S Kangaslahti, Z Liu, J Gore [MIT & Harvard University] (2026)

大模型为什么越深越强？我们习惯性地认为深层网络是在层层递进地进行逻辑推理，但本文揭示了一个略显尴尬的真相：大模型的大部分层其实都在做高度相似的重复工作。

研究者发现，大模型的损失函数与深度之间存在一种“逆深度缩放”关系。简单来说，损失的降低与层数成反比。这意味着，增加深度带来的性能提升，并非源于更高级的逻辑抽象，而更像是一种通过多层“合奏平均”来抵消误差的统计游戏。

关于深度如何发挥作用，学术界一直有三种主流猜想：第一种是“组合装配”，即每一层都在构建更复杂的特征；第二种是“过程精炼”，像解微分方程一样平滑地逼近目标；第三种是“合奏平均”，即多层结构像一个投票委员会，通过取平均值来降低单一层的随机误差。

这项研究通过分析 Pythia 和 Qwen 等模型的隐藏状态发现，LLM 的表现最接近第三种：合奏平均。实验数据显示，高达 99.6% 的 Token 在经过中间层时，其隐藏状态的变化极其微小且均匀。这意味着，模型并没有在深度方向上进行剧烈的特征转换，而是在进行一种低效但极其鲁棒的微调。

这种“深度不经济”的根源可能藏在残差连接这一经典设计中。残差结构虽然解决了深层网络的训练难题，但也产生了一种架构偏置：它鼓励每一层只对前一层做微小的修正，而不是进行本质的逻辑跳跃。这种设计让模型变得非常稳定，但也让深度变成了某种程度上的“参数冗余”。

一个深刻的洞察是：目前的模型是在用规模换取准确，而不是用结构换取智慧。如果每一层只是在前一层的影子下做简单的平均，那么盲目堆叠层数终将遭遇严重的边际效应递减。

这项研究为未来的架构创新指明了方向。如果我们想让大模型真正实现效率飞跃，核心不在于堆砌更多的层，而在于如何打破“合奏平均”的僵局，促使模型真正学会利用深度进行“组合式学习”。

真正的深度，不应是简单重复的叠加，而应是逻辑层次的跃迁。

arxiv.org/abs/2602.05970

发布于北京