【#DeepSeek开源大模型记忆模块#,提升知识检索效率】
据新浪科技消息,DeepSeek团队近期发布了一篇与北京大学合作的新论文,提出“条件记忆”新范式,并给出了名为Engram的实现方案,旨在为Transformer架构补充知识查找能力。
论文指出,现有语言模型在处理需要检索静态知识的任务时,往往要消耗多层注意力和前馈网络来重构信息,这在一定程度上占用了用于复杂推理的网络资源。为此,Engram模块采用类似N-gram查表的思路,在Transformer层之间插入一个大型词表,专门存储实体名称和短语等固定信息,使查找速度达到O (1)。
为解决传统N-gram模型的存储和多义性问题,研究团队引入了上下文感知门控机制,根据当前隐藏状态动态调整权重,并采用多头哈希技术将N-gram映射到固定大小的嵌入表中。实验显示,在27B参数规模下,加入Engram的模型在多项知识密集型任务上表现提升,同时在通用推理和代码数学领域也有一定进步。
在工程实现方面,团队将大规模Engram表放在CPU内存中,通过PCIe异步预取与GPU计算重叠,使推理吞吐量下降控制在3%以内,延迟基本不受影响。DeepSeek方面表示,条件记忆有望成为下一代稀疏模型的重要组成部分,为大模型效率提升提供新路径。
