DeepSeek V4架构设计曝光

梁文峰署名DeepSeek新论文刷屏了，万众期待的DeepSeek V4架构，其最大的特点，可以简单理解为给大模型装了个“外接硬盘”或“电子脑”，即实现了“存算分离”。

新版本引入的Engram新模块，是专门儿用来存储那些固定的、死记硬背的知识（比如“济南是山东省会”、“π约等于3.14”、成语典故等）。而原来的模型主干（Transformer）和MoE专家，则被解放出来，专注于需要动脑筋的逻辑推理和动态计算。

主要优势有四个方面：

①更聪明，能力更全面
模型不用再浪费大量“脑力”去回忆基础知识，可以把所有注意力集中在复杂的推理链条上。因此，它不仅在知识问答上更强，连带着数学、代码和逻辑推理能力也一起提升了。

②效率高，反应快
查“外接硬盘”几乎是瞬间完成，比用层层神经网络去“算”出答案要快得多、省力得多，这解放了宝贵的计算资源。

③成本低，扩展性好
这个“外接硬盘”可以做得非常大，存海量知识，而且不会增加模型运行时的计算消耗。这意味着可以用更低的训练和推理成本，获得拥有更庞博知识的模型。

④专注长文本
由于模型主干不再被琐碎的局部信息干扰，它能更有效地利用注意力机制来处理超长上下文，在长文档的理解和推理上表现会更好。

总之，V4的架构让模型“该查的查，该算的算”，各司其职，是一种非常高效且聪明的设计思路。不出意外，该版本又要在春节档上线了，真会来事儿！

#梁文锋署名新论文曝光##DeepSeekV4或引入全新记忆架构#

发布于广西