麻省理工科技评论
26-01-13 16:07 微博认证:《麻省理工科技评论》杂志官方微博

【DeepSeek最新论文:直指Transformer要害,让AI学会翻“字典”了】

今日凌晨,#DeepSeek# 在 GitHub 上发布了一项代号为“Engram”的最新研究成果,并同步上传了题为Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models(基于可扩展查找的条件记忆:大语言模型稀疏性的新维度)的学术论文。

这篇由#梁文锋# 、DeepSeek 研究团队与#北京大学# 联合署名的论文,一经发表就引发了广泛讨论。 

此次研究带来了一项突破:在业界广泛采用的“混合专家模型”(MoE)之外,DeepSeek 开辟了第二条提升模型效率的路径——“条件记忆”(Conditional Memory)。如果说 MoE 解决了“如何高效计算”的问题,那么新提出的 Engram 架构则试图解决“如何高效存储与提取知识”的难题。

在此前的 DeepSeek-V2 和 V3 取得巨大成功后,基于 Transformer 的 MoE 架构已成为最具代表性、应用最广泛的稀疏化方案之一。MoE 通过“条件计算”(Conditional Computation)机制,即在处理每个词元(Token)时仅激活模型参数的一小部分,成功打破了模型规模与推理成本之间的线性约束。

戳链接查看详情:http://t.cn/AXGwS7Ek