AINLP 26-04-24 13:23
微博认证:AI博主

DeepSeek V4 来了

链接:http://t.cn/AXx0T7dg

简要介绍如下:

我们发布 DeepSeek-V4 系列的预览版本,其中包括两个强大的混合专家模型(Mixture-of-Experts,MoE)语言模型——DeepSeek-V4-Pro 和 DeepSeek-V4-Flash。DeepSeek-V4-Pro 拥有 1.6T 参数,其中 49B 参数被激活;DeepSeek-V4-Flash 拥有 284B 参数,其中 13B 参数被激活。两者均支持一百万 token 的上下文长度。

DeepSeek-V4 系列在架构和优化方面引入了几项关键升级:
混合注意力架构: 我们设计了一种混合注意力机制,将压缩稀疏注意力(Compressed Sparse Attention,CSA)和高度压缩注意力(Heavily Compressed Attention,HCA)结合起来,以显著提升长上下文效率。在 100 万 token 上下文设置下,与 DeepSeek-V3.2 相比,DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为其 27%,KV 缓存仅为其 10%。

流形约束超连接(Manifold-Constrained Hyper-Connections,mHC): 我们引入 mHC 来强化传统残差连接,在保持模型表达能力的同时,增强信号在各层之间传播的稳定性。

Muon 优化器: 我们采用 Muon 优化器,以实现更快的收敛速度和更高的训练稳定性。

我们在超过 32T 的多样化、高质量 token 上对两个模型进行了预训练,随后进行了全面的后训练流程。后训练采用两阶段范式:首先独立培养特定领域专家(通过 SFT 以及基于 GRPO 的 RL),随后通过在线策略蒸馏进行统一的模型整合,将不同领域中的各类能力整合进单一模型。

DeepSeek-V4-Pro-Max 是 DeepSeek-V4-Pro 的最大推理努力模式,显著提升了开源模型的知识能力,稳固地确立了其作为当前最佳开源模型的地位。它在代码基准测试中达到顶级表现,并在推理和智能体任务上显著缩小了与领先闭源模型之间的差距。与此同时,在给予更大思考预算的情况下,DeepSeek-V4-Flash-Max 能够达到与 Pro 版本相当的推理表现;不过,由于其参数规模较小,在纯知识任务和最复杂的智能体工作流上自然会略微落后。

发布于 江苏