karminski-牙医 26-01-13 07:34
微博认证:AI博主

DeepSeek-V4 技术架构提前曝光!

大家都知道现在的大模型 MoE 架构是把AI的推理能力和知识都融合到了每个 Expert (专家) 当中的, 那么有没有可能让专家只用来推理, 然后大量的外部知识存储到特定区域, 形成如同攻壳机动队中描述的 Cyborg 其实是电子脑+外部记忆构成的这样的架构呢?

这个事情 DeepSeek 做成了!

DeepSeek 刚刚发布了新论文 Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models, 提出了 Engram, 即现有的 MoE 架构负责动态计算和推理, 单独的 Engram 部分用来存储和检索大模型的静态知识. 最重要的是, 这部分检索性能爆表, 复杂度是 O(1) 的! 这样至少带来了两个收获!

第一个收获是推理效率大幅提升! 因为 Engram 的索引在模型接收输入时就能立即确定, 不需要等待前面层的计算结果, 所以 Engram 的嵌入表可以完全卸载到主机内存 (CPU RAM), 通过预取机制实现几乎零开销的访问. 这意味着即使 Engram 嵌入表达到数十亿参数规模, 也不会显著增加 GPU 显存占用!

另一个显著提升是, 大模型推理能力在单位参数量下会增强! 论文发现: Engram 将主干网络的早期层从静态模式重建任务中解放出来, 有效地为复杂推理保留了网络深度. 换句话说, 以前模型的早期层要花大量容量"记住"静态知识, 现在 Engram 接管了这部分工作, 早期层可以专注于语义理解, 相当于为推理任务有效地加深了网络! DeepSeek 自己实测的结果是 BBH 推理能力 +5.0, MATH 数学能力 +2.4, 代码能力 +3.0!

考虑到 DeepSeek-V2 引入了 MLA (Multi-head Latent Attention)
DeepSeek-V3 进一步优化了 MoE 架构, 引入无损负载均衡等技术
那么 DeepSeek-V4 是不是就要融入 Engram 了? 我们拭目以待! 今年的春节礼物真令人期待啊!

#梁文锋署名新论文曝光#
#DeepSeekV4或引入全新记忆架构#
#ai生活指南##ai创造营##engram#

发布于 日本