Deepseek V4 Pro:1.6T总参数,49B激活参数,1M上下文 #DeepseekV4#
我们推出了 DeepSeek-V4 系列的预览版本,包含两款强大的混合专家(MoE)语言模型——DeepSeek-V4-Pro(参数规模 1.6 万亿,激活 490 亿)和 DeepSeek-V4-Flash(参数规模 2840 亿,激活 130 亿)——两者均支持一百万个 token 的上下文长度。
DeepSeek-V4 系列在架构和优化上引入了若干关键升级:
混合注意力架构:我们设计了一种结合压缩稀疏注意力(CSA)和深度压缩注意力(HCA)的混合注意力机制,极大提升了长上下文效率。在 100 万 token 的上下文设定中,DeepSeek-V4-Pro 相比 DeepSeek-V3.2,单 token 推理所需的 FLOPs 仅为前者的 27%,KV 缓存占用也仅为 10%。
流形约束超连接(mHC):我们引入 mHC 来强化传统的残差连接,在保持模型表达能力的同时,增强了信号跨层传播的稳定性。
Muon 优化器:我们采用 Muon 优化器,以实现更快的收敛速度和更强的训练稳定性。
我们在超过 32 万亿个多样化且高质量的 token 上对两个模型进行了预训练,随后采用了一套全面的后训练流程。后训练采用两阶段范式:先通过监督微调(SFT)和基于 GRPO 的强化学习,独立培养领域专属专家;再通过在线策略蒸馏进行统一模型整合,将不同领域的独特能力融合到单个模型中。
DeepSeek-V4-Pro-Max 是 DeepSeek-V4-Pro 的最大推理努力模式,它大幅提升了开源模型的知识能力,稳固确立了其作为当前最佳开源模型的地位。该模型在编程基准测试中取得了顶尖表现,并在推理和智能体任务上显著缩小了与领先闭源模型的差距。另一方面,DeepSeek-V4-Flash-Max 在获得更大的思考预算时,推理性能可与 Pro 版本相媲美,但其较小的参数规模自然使其在纯知识任务和最复杂的智能体工作流上稍逊一筹。
