有数Thinking 26-01-13 09:33
微博认证:AI博主

梁文峰署名DeepSeek新论文刷屏了,万众期待的DeepSeek V4架构,其最大的特点,可以简单理解为给大模型装了个“外接硬盘”或“电子脑”,即实现了“存算分离”。

新版本引入的Engram新模块,是专门儿用来存储那些固定的、死记硬背的知识(比如“济南是山东省会”、“π约等于3.14”、成语典故等)。而原来的模型主干(Transformer)和MoE专家,则被解放出来,专注于需要动脑筋的逻辑推理和动态计算。

主要优势有四个方面:

①更聪明,能力更全面
模型不用再浪费大量“脑力”去回忆基础知识,可以把所有注意力集中在复杂的推理链条上。因此,它不仅在知识问答上更强,连带着数学、代码和逻辑推理能力也一起提升了。

②效率高,反应快
查“外接硬盘”几乎是瞬间完成,比用层层神经网络去“算”出答案要快得多、省力得多,这解放了宝贵的计算资源。

③成本低,扩展性好
这个“外接硬盘”可以做得非常大,存海量知识,而且不会增加模型运行时的计算消耗。这意味着可以用更低的训练和推理成本,获得拥有更庞博知识的模型。

④专注长文本
由于模型主干不再被琐碎的局部信息干扰,它能更有效地利用注意力机制来处理超长上下文,在长文档的理解和推理上表现会更好。

总之,V4的架构让模型“该查的查,该算的算”,各司其职,是一种非常高效且聪明的设计思路。不出意外,该版本又要在春节档上线了,真会来事儿!

#梁文锋署名新论文曝光##DeepSeekV4或引入全新记忆架构#

发布于 广西