【#DeepSeek又开源了# 梁文锋署名新论文发布,实习生挑大梁】智东西1月13日报道,昨晚,DeepSeek又开源了,还发布一篇新论文。这次,他们提出了一种全新的“条件记忆”机制——Engram,旨在让MoE模型在保持巨量参数的同时,更高效地处理语言信息。
DeepSeek创始人兼CEO梁文锋、北大王选计算机研究所的赵东岩和张辉帅教授都在论文中署名。Engram架构的核心优势在于以更低成本实现更优性能。训练计算量较MoE减少18%的情况下,在32768个token的长上下文任务中,Engram在RULER基准测试中反超同参数量MoE模型。
并且,其浅层部署的记忆模块接管局部依赖与静态知识存储,为注意力机制腾出容量以专注全局推理,1000亿参数记忆表卸载后使H800推理吞吐量降幅不足3%。
DeepSeek还观察到,增加记忆槽位数量能持续、稳定地降低验证损失,这意味着Engram提供了一个可预测的Scaling新手段:增大记忆容量持续带来收益,而无需增加计算量。
那这种效果究竟是如何实现的呢?如今的MoE模型虽然在计算层面做到了稀疏化,但是它处理信息的方式仍然很费劲:有些老生常谈的事实性内容,比如常见的名字、公式或固定表达,模型却要重复计算,非常耗时间。
DeepSeek的做法是,把这些“固定知识”提前整理成一个可以快速查询的表格,这样就能把更多精力放在真正需要深度思考的任务上,比如复杂推理或者理解长段文本。
值得一提的是,论文的第一作者Xin Cheng(程信)目前在北京大学智能学院攻读博士学位,主要研究大模型的高效参数化方法和机制。他同时也在DeepSeek工作,R1、V3的研究都参与了,很有可能是实习生。
在论文摘要中,DeepSeek提出,条件记忆(conditional memory)将成为下一代稀疏模型中不可或缺的建模原语。这或许意味着DeepSeek-V4有望整合条件记忆机制,实现知识高效检索与推理能力的飞跃。
