Tech老炮 26-01-01 21:23
微博认证:数码博主

DeepSeek元旦发布的mHC(流形约束超连接)架构新论文,核心是通过双随机矩阵流形约束+工程优化,从数学上解决了传统超连接训练中信号爆炸、梯度发散的关键痛点,仅增加6.7%训练开销就实现BBH等复杂任务2.1%-2.3%的性能提升,既升级了十年残差连接范式,又为大模型提供了更稳定、低成本的基础组件,标志着国产团队在大模型底层架构原创上的重要突破,推动行业从“堆算力”转向“精设计”。

发布于 北京