DeepSeek新模型曝光

【#DeepSeek新模型曝光#】

1月21日消息，据The Information爆料，国产AI企业DeepSeek计划于2月中旬农历新年期间推出新一代旗舰模型DeepSeek V4，该模型将重点强化代码生成能力。此前1月20日，开发者在GitHub平台发现DeepSeek更新的FlashMLA代码中，28处提及与现有V3.2模型并列的“MODEL1”标识符，被推测为V4的技术原型。

技术分析显示，“MODEL1”采用全新架构，在KV缓存布局、稀疏性处理及FP8解码支持上实现突破，核心聚焦内存优化与计算效率提升。值得关注的是，该模型有望整合DeepSeek近期发布的两大技术成果：mHC优化残差连接训练法（可提升大规模训练稳定性）与Engram AI记忆模块（通过哈希检索实现静态知识与动态推理解耦），同时搭载FlashMLA高效解码内核，其低秩协同架构可减少70%冗余计算，H800 GPU利用率提升至75%。

作为DeepSeek-R1发布一周年的重磅升级，V4模型通过“架构创新+技术整合”的双路径，有望在代码生成、长上下文处理等核心场景实现性能跃迁，相关动态引发技术社区高度关注。