[LG]《Inverse Depth Scaling From Most Layers Being Similar》Y Liu, S Kangaslahti, Z Liu, J Gore [MIT & Harvard University] (2026)
大模型为什么越深越强?我们习惯性地认为深层网络是在层层递进地进行逻辑推理,但本文揭示了一个略显尴尬的真相:大模型的大部分层其实都在做高度相似的重复工作。
研究者发现,大模型的损失函数与深度之间存在一种“逆深度缩放”关系。简单来说,损失的降低与层数成反比。这意味着,增加深度带来的性能提升,并非源于更高级的逻辑抽象,而更像是一种通过多层“合奏平均”来抵消误差的统计游戏。
关于深度如何发挥作用,学术界一直有三种主流猜想:第一种是“组合装配”,即每一层都在构建更复杂的特征;第二种是“过程精炼”,像解微分方程一样平滑地逼近目标;第三种是“合奏平均”,即多层结构像一个投票委员会,通过取平均值来降低单一层的随机误差。
这项研究通过分析 Pythia 和 Qwen 等模型的隐藏状态发现,LLM 的表现最接近第三种:合奏平均。实验数据显示,高达 99.6% 的 Token 在经过中间层时,其隐藏状态的变化极其微小且均匀。这意味着,模型并没有在深度方向上进行剧烈的特征转换,而是在进行一种低效但极其鲁棒的微调。
这种“深度不经济”的根源可能藏在残差连接这一经典设计中。残差结构虽然解决了深层网络的训练难题,但也产生了一种架构偏置:它鼓励每一层只对前一层做微小的修正,而不是进行本质的逻辑跳跃。这种设计让模型变得非常稳定,但也让深度变成了某种程度上的“参数冗余”。
一个深刻的洞察是:目前的模型是在用规模换取准确,而不是用结构换取智慧。如果每一层只是在前一层的影子下做简单的平均,那么盲目堆叠层数终将遭遇严重的边际效应递减。
这项研究为未来的架构创新指明了方向。如果我们想让大模型真正实现效率飞跃,核心不在于堆砌更多的层,而在于如何打破“合奏平均”的僵局,促使模型真正学会利用深度进行“组合式学习”。
真正的深度,不应是简单重复的叠加,而应是逻辑层次的跃迁。
arxiv.org/abs/2602.05970
