#模型时代##DeepSeek元旦新论文#DeepSeek 开年第一篇论文说了什么?
就像R1发布选择了春节,DeepSeek-AI 发布了一篇关于神经网络架构的论文,选择了元旦放假。做个外行解读:这项工作解决的问题,和当下大模型训练的一个现实挑战有关。一句话:它改进了残差连接,性能更强还不崩溃。
1、训练大模型有多难
GPT、DeepSeek 这类大模型,本质上是一个巨大的数学计算流程,由几十层甚至上百层计算单元堆叠而成。训练时,数据从第一层流入,经过每一层的处理,最终从最后一层流出。
问题在于:数据在流动过程中会不断变化。如果每一层都让数据的数值稍微变大一点,几十层累积下来,数值就会爆炸式增长;反过来,如果每层都让数值变小一点,最后就会趋近于零。无论哪种情况,训练都会失败。
这不是理论担忧。在大模型训练中,研究者经常遇到"梯度爆炸"或"梯度消失"的问题,导致训练中断,之前的计算全部白费。一次大模型训练可能耗费数百万美元的算力成本,稳定性是生死攸关的事。
2、残差连接:十年前的解决方案
2015年,何恺明提出了一个简洁的设计:在每一层的计算之外,额外开一条"直通道",让原始数据不经任何处理直接传到下一层。
这条直通道的关键是:数据通过时乘以 1。1 就是 1,不放大、不缩小、不改变。无论网络有多深,直通道里的数据始终保持原样。
这个设计叫"残差连接",它支撑了过去十年几乎所有深度学习的成功,从图像识别到 ChatGPT。
3、HC:把固定的 1 变成可调的数字
残差连接虽然稳定,但它的直通道完全不参与学习,只是被动保底。能不能让它也"干点活"?
2024年提出的"超连接"(HC)做了这个尝试。它把直通道从一条扩展为四条,更关键的是:数据通过时不再乘以固定的 1,而是乘以一组网络自己学出来的数字。
可以把四条通道想象成调音台上的四个音轨。每一层可以调节这四个音轨怎么混合——把音轨 1 调小一点,音轨 2 调大一点,混出新的效果。怎么混最有效,是网络在训练中自己学出来的。
HC 的问题是:调节没有任何限制,可能把某个音轨放大太多,最后爆音;或者调得太小,声音消失。单独一层问题不大,但 60 层累积下来,论文实验显示放大倍数峰值达到了 3000。在 27B 参数模型训练中,HC 在约 12000 步时出现了崩溃迹象。
4、mHC:可以混音,但总音量守恒
mHC 沿用了 HC 的四音轨设计,也允许调节混合方式,但加了一条规矩:总音量必须不变。可以把音轨 1 调小、音轨 2 调大,但四个音轨加起来的总量必须和之前一样。现实中的调音台没有这个约束,这里只是借用来说明"可以重新分配,但总量守恒"的意思。
和残差连接的区别是:残差连接的数据完全不动;mHC 允许数据在通道之间重新分配。
和 HC 的区别是:HC 可以让数据凭空变多或变少;mHC 只能重新分配,不能增减总量。
总量不变,意味着每一层的放大倍数理论上是 1。实际工程中,为了计算效率,用的是一种近似算法,所以放大倍数是接近 1 的 1.6,而不是完美的 1。但比起 HC 的 3000,已经是天壤之别,训练全程稳定。
5、效果和代价
在 27B 参数模型的测试中,mHC 相比传统方案有明显提升:复杂推理任务从 43.8% 提升到 51.0%,阅读理解任务从 47.0% 提升到 53.9%。训练时间仅增加 6.7%。
6、这项工作的位置
论文将 mHC 定位为"HC 的灵活实用扩展"(a flexible and practical extension of HC)。在学术语境里,这是一个相当克制的自我评价:说"扩展"而不是"突破",意味着这是在现有方法上的改进,而非全新的范式;说"实用",强调的是工程上能落地,而非理论上的创新。这是一个解决了真实问题的扎实工作,DeepSeek 团队自己也没有过度包装。
对于大模型训练来说,这类"看起来不起眼但能避免崩溃"的改进,往往比花哨的新架构更有实际价值。
