【#DeepSeek新模型曝光#】
1月21日消息,据The Information爆料,国产AI企业DeepSeek计划于2月中旬农历新年期间推出新一代旗舰模型DeepSeek V4,该模型将重点强化代码生成能力。此前1月20日,开发者在GitHub平台发现DeepSeek更新的FlashMLA代码中,28处提及与现有V3.2模型并列的“MODEL1”标识符,被推测为V4的技术原型。
技术分析显示,“MODEL1”采用全新架构,在KV缓存布局、稀疏性处理及FP8解码支持上实现突破,核心聚焦内存优化与计算效率提升。值得关注的是,该模型有望整合DeepSeek近期发布的两大技术成果:mHC优化残差连接训练法(可提升大规模训练稳定性)与Engram AI记忆模块(通过哈希检索实现静态知识与动态推理解耦),同时搭载FlashMLA高效解码内核,其低秩协同架构可减少70%冗余计算,H800 GPU利用率提升至75%。
作为DeepSeek-R1发布一周年的重磅升级,V4模型通过“架构创新+技术整合”的双路径,有望在代码生成、长上下文处理等核心场景实现性能跃迁,相关动态引发技术社区高度关注。
