DeepSeek发布新论文,可能是V4核心技术。
DeepSeek Engram是 DeepSeek 刚刚开源的一项重要研究成果(论文+代码),全称可以理解为:
「条件记忆 + 可扩展查找」—— 为大语言模型引入的一种全新稀疏性轴(sparsity axis)。
简单来说,就是给 Transformer 加了一套「超级大的、静态的、O(1) 确定性查找的外部记忆」,用来弥补 Transformer 天生不擅长做「知识查表」这件事。
Engram 核心概念(用最直白的话讲)
传统路线:
MoE(Mixture-of-Experts) → 用「条件计算」做稀疏(哪个专家激活)
Transformer 本体 → 主要靠神经元「算」出一切
Engram 提出的新思路:
→ 再加一条腿:「条件记忆」(conditional memory),用静态查找来做稀疏
就像把以前的 n-gram 语言模型升级成了现代版超级大容量版,然后让它跟现在的 Transformer 神经网络合作:
早期层常见的模式、短语、事实 → 直接查表(快、省算力)
复杂推理、新组合、动态上下文 → 还是靠神经网络算
目前社区最热的几个判断(2026.1.13 最新舆论)
1. Engram 几乎确定是 DeepSeek-V4 的核心技术之一
(很多业内人士和分析师都这么认为,DeepSeek 最近发了好几篇铺垫性质的论文)
2. 可能是 2026 年最有可能把「百亿刀级模型性能」用「几千万刀」打出来的路子之一
3. 给开源社区提供了一种新的 scaling 方向
以前大家只会卷 MoE 专家数、卷数据、卷算力
现在多了一条腿可以卷:卷外部静态记忆的容量与质量
一句话总结目前最主流的社区情绪:
> 「DeepSeek 又整了个大活,这次可能是真·降维打击方向」
目前(2026年1月13日)项目刚开源不久,论文和代码都在这里:
http://t.cn/AXGz0LGh
想快速了解最核心思想 → 直接看论文前两页 abstract + 图1就基本够了。
有兴趣的话可以持续关注,很大概率这东西会在今年内出现在实际能用的超强开源/商用模型里~
#梁文锋署名新论文曝光#
#DeepSeekV4或引入全新记忆架构#
