DeepSeek提出条件记忆架构

【DeepSeek最新论文：直指Transformer要害，让AI学会翻“字典”了】

今日凌晨，#DeepSeek# 在 GitHub 上发布了一项代号为“Engram”的最新研究成果，并同步上传了题为Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models（基于可扩展查找的条件记忆：大语言模型稀疏性的新维度）的学术论文。

这篇由#梁文锋# 、DeepSeek 研究团队与#北京大学# 联合署名的论文，一经发表就引发了广泛讨论。

此次研究带来了一项突破：在业界广泛采用的“混合专家模型”（MoE）之外，DeepSeek 开辟了第二条提升模型效率的路径——“条件记忆”（Conditional Memory）。如果说 MoE 解决了“如何高效计算”的问题，那么新提出的 Engram 架构则试图解决“如何高效存储与提取知识”的难题。

在此前的 DeepSeek-V2 和 V3 取得巨大成功后，基于 Transformer 的 MoE 架构已成为最具代表性、应用最广泛的稀疏化方案之一。MoE 通过“条件计算”（Conditional Computation）机制，即在处理每个词元（Token）时仅激活模型参数的一小部分，成功打破了模型规模与推理成本之间的线性约束。

戳链接查看详情：http://t.cn/AXGwS7Ek