#DeepSeek发布梁文锋署名论文#【#DeepSeek下一代稀疏模型提前剧透##DeepSeek开源大模型记忆模块#】DeepSeek节前开始蓄力!最新论文直接给Transformer加上“条件记忆”(Conditional Memory),补上了原生缺乏的知识查找机制。
结论中明写道:我们将条件记忆视为下一代稀疏模型不可或缺的建模原语。
还是梁文锋署名,并与北京大学王选所赵东岩、张辉帅团队合作。
论文中不仅提出了条件记忆这个全新范式,并给出了具体实现方案Engram模块,实验中让27B参数碾压同规模纯MoE模型,甚至变相提升了大模型的推理能力:
让原来Transformer要用6层注意力才能干的简单任务压缩到1-2层搞定,省出来的资源就可以用于更难的推理任务了。
条件记忆的原理其实也非常“原始”:不靠计算,回归查表,用上了传统N-gram方法。
给大模型一个巨大的词表,专门存那些固定的实体名称和两三个词的短语,不管词表多大,找信息都是O(1)速度。
关键就在于,如此前大模型时代的玩法,DeepSeek如何解决传统N-gram模型存储爆炸和多义性问题,又是让它和现代Transformer结合起来的?(量子位)http://t.cn/AXGzku5y
