#deepseekv4或引入全新记忆架构# DeepSeek V4有望搭载全新记忆架构,核心创新在于引入独立的Engram记忆模块,构建“查算分离”双系统方案,打破传统Transformer混合存储与计算的局限,开辟大模型稀疏性优化新维度。
该架构将静态知识记忆与动态逻辑推理拆分:Engram模块依托哈希N-gram嵌入技术,以O(1)时间复杂度高效检索,专门存储固定模式与事实性知识;MoE架构基于稀疏激活机制,聚焦复杂逻辑推演、代码生成等计算密集型任务,释放注意力机制全局建模能力。技术验证显示,等参数、等算力下,其使MMLU、CMMLU等知识类任务性能提升3.4-4.0个百分点,BBH推理、HumanEval代码任务亦获显著增益;确定性寻址设计实现参数存储与计算资源解耦,降低GPU显存压力且无额外推理开销,为大模型高效扩展提供硬核支撑。 http://t.cn/AXGzkrWt
发布于 福建
