DeepSeek V4发布_新浪新闻

DeepSeek V4 来了

链接：http://t.cn/AXx0T7dg

简要介绍如下：

我们发布 DeepSeek-V4 系列的预览版本，其中包括两个强大的混合专家模型（Mixture-of-Experts，MoE）语言模型——DeepSeek-V4-Pro 和 DeepSeek-V4-Flash。DeepSeek-V4-Pro 拥有 1.6T 参数，其中 49B 参数被激活；DeepSeek-V4-Flash 拥有 284B 参数，其中 13B 参数被激活。两者均支持一百万 token 的上下文长度。

DeepSeek-V4 系列在架构和优化方面引入了几项关键升级：
混合注意力架构：我们设计了一种混合注意力机制，将压缩稀疏注意力（Compressed Sparse Attention，CSA）和高度压缩注意力（Heavily Compressed Attention，HCA）结合起来，以显著提升长上下文效率。在 100 万 token 上下文设置下，与 DeepSeek-V3.2 相比，DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为其 27%，KV 缓存仅为其 10%。

流形约束超连接（Manifold-Constrained Hyper-Connections，mHC）：我们引入 mHC 来强化传统残差连接，在保持模型表达能力的同时，增强信号在各层之间传播的稳定性。

Muon 优化器：我们采用 Muon 优化器，以实现更快的收敛速度和更高的训练稳定性。

我们在超过 32T 的多样化、高质量 token 上对两个模型进行了预训练，随后进行了全面的后训练流程。后训练采用两阶段范式：首先独立培养特定领域专家（通过 SFT 以及基于 GRPO 的 RL），随后通过在线策略蒸馏进行统一的模型整合，将不同领域中的各类能力整合进单一模型。

DeepSeek-V4-Pro-Max 是 DeepSeek-V4-Pro 的最大推理努力模式，显著提升了开源模型的知识能力，稳固地确立了其作为当前最佳开源模型的地位。它在代码基准测试中达到顶级表现，并在推理和智能体任务上显著缩小了与领先闭源模型之间的差距。与此同时，在给予更大思考预算的情况下，DeepSeek-V4-Flash-Max 能够达到与 Pro 版本相当的推理表现；不过，由于其参数规模较小，在纯知识任务和最复杂的智能体工作流上自然会略微落后。

发布于江苏