DeepSeek新论文解读

#模型时代##DeepSeek元旦新论文#DeepSeek 开年第一篇论文说了什么？

就像R1发布选择了春节，DeepSeek-AI 发布了一篇关于神经网络架构的论文，选择了元旦放假。做个外行解读：这项工作解决的问题，和当下大模型训练的一个现实挑战有关。一句话：它改进了残差连接，性能更强还不崩溃。

1、训练大模型有多难

GPT、DeepSeek 这类大模型，本质上是一个巨大的数学计算流程，由几十层甚至上百层计算单元堆叠而成。训练时，数据从第一层流入，经过每一层的处理，最终从最后一层流出。

问题在于：数据在流动过程中会不断变化。如果每一层都让数据的数值稍微变大一点，几十层累积下来，数值就会爆炸式增长；反过来，如果每层都让数值变小一点，最后就会趋近于零。无论哪种情况，训练都会失败。

这不是理论担忧。在大模型训练中，研究者经常遇到"梯度爆炸"或"梯度消失"的问题，导致训练中断，之前的计算全部白费。一次大模型训练可能耗费数百万美元的算力成本，稳定性是生死攸关的事。

2、残差连接：十年前的解决方案

2015年，何恺明提出了一个简洁的设计：在每一层的计算之外，额外开一条"直通道"，让原始数据不经任何处理直接传到下一层。

这条直通道的关键是：数据通过时乘以 1。1 就是 1，不放大、不缩小、不改变。无论网络有多深，直通道里的数据始终保持原样。

这个设计叫"残差连接"，它支撑了过去十年几乎所有深度学习的成功，从图像识别到 ChatGPT。

3、HC：把固定的 1 变成可调的数字

残差连接虽然稳定，但它的直通道完全不参与学习，只是被动保底。能不能让它也"干点活"？

2024年提出的"超连接"（HC）做了这个尝试。它把直通道从一条扩展为四条，更关键的是：数据通过时不再乘以固定的 1，而是乘以一组网络自己学出来的数字。

可以把四条通道想象成调音台上的四个音轨。每一层可以调节这四个音轨怎么混合——把音轨 1 调小一点，音轨 2 调大一点，混出新的效果。怎么混最有效，是网络在训练中自己学出来的。

HC 的问题是：调节没有任何限制，可能把某个音轨放大太多，最后爆音；或者调得太小，声音消失。单独一层问题不大，但 60 层累积下来，论文实验显示放大倍数峰值达到了 3000。在 27B 参数模型训练中，HC 在约 12000 步时出现了崩溃迹象。

4、mHC：可以混音，但总音量守恒

mHC 沿用了 HC 的四音轨设计，也允许调节混合方式，但加了一条规矩：总音量必须不变。可以把音轨 1 调小、音轨 2 调大，但四个音轨加起来的总量必须和之前一样。现实中的调音台没有这个约束，这里只是借用来说明"可以重新分配，但总量守恒"的意思。

和残差连接的区别是：残差连接的数据完全不动；mHC 允许数据在通道之间重新分配。

和 HC 的区别是：HC 可以让数据凭空变多或变少；mHC 只能重新分配，不能增减总量。

总量不变，意味着每一层的放大倍数理论上是 1。实际工程中，为了计算效率，用的是一种近似算法，所以放大倍数是接近 1 的 1.6，而不是完美的 1。但比起 HC 的 3000，已经是天壤之别，训练全程稳定。

5、效果和代价

在 27B 参数模型的测试中，mHC 相比传统方案有明显提升：复杂推理任务从 43.8% 提升到 51.0%，阅读理解任务从 47.0% 提升到 53.9%。训练时间仅增加 6.7%。

6、这项工作的位置

论文将 mHC 定位为"HC 的灵活实用扩展"（a flexible and practical extension of HC）。在学术语境里，这是一个相当克制的自我评价：说"扩展"而不是"突破"，意味着这是在现有方法上的改进，而非全新的范式；说"实用"，强调的是工程上能落地，而非理论上的创新。这是一个解决了真实问题的扎实工作，DeepSeek 团队自己也没有过度包装。

对于大模型训练来说，这类"看起来不起眼但能避免崩溃"的改进，往往比花哨的新架构更有实际价值。

发布于韩国