DeepSeek V4技术架构升级

DeepSeek V4 技术报告英中对照版.pdf http://t.cn/AXxHZ4vK

V4核心主题是：通过新的架构和工程优化，让大模型更高效地支持百万 token 上下文。

一句话总结：
DeepSeek-V4 不是单纯把模型做大，而是围绕“长上下文推理效率”重做了注意力、残差连接、优化器和训练/推理基础设施，使 1M token 上下文在成本上更可行。

主要内容：

模型系列
DeepSeek-V4-Pro：1.6T 总参数，49B 激活参数。
DeepSeek-V4-Flash：284B 总参数，13B 激活参数。
两者都支持 100 万 token 上下文。
核心架构升级
引入混合注意力架构：CSA + HCA。
CSA：先压缩 KV Cache，再做稀疏注意力。
HCA：更激进地压缩 KV Cache，但保持稠密注意力。
目标是大幅降低长上下文下的 FLOPs 和 KV Cache 占用。
长上下文效率提升明显
单 token 推理 FLOPs 只需约 27%；
KV Cache 只需约 10%。
在 1M token 场景下，DeepSeek-V4-Pro 相比 DeepSeek-V3.2：
DeepSeek-V4-Flash 更激进，FLOPs 和 KV Cache 进一步降低。
引入 mHC 残差连接
文档提出 Manifold-Constrained Hyper-Connections，用来增强传统残差连接。
主要作用是提高深层模型训练时的信号传播稳定性，同时保留表达能力。
使用 Muon 优化器
DeepSeek-V4 大部分模块使用 Muon 优化器。
目的：更快收敛、更稳定训练。
部分模块仍保留 AdamW，例如 embedding、prediction head、RMSNorm 等。
训练与后训练
先分别训练数学、代码、Agent、指令跟随等领域专家模型；
再通过 on-policy distillation，把多个专家能力蒸馏到统一模型中。
预训练数据超过 32T tokens。
后训练采用两阶段：
能力表现
DeepSeek-V4-Pro-Max 在知识、推理、Agent、长上下文任务上达到开源模型前列。
文档认为其在部分推理能力上接近或略落后于最前沿闭源模型。
DeepSeek-V4-Flash 参数更小，但在推理任务中通过更大 thinking budget 可以接近更大模型表现。

发布于江苏