AINLP 26-04-25 15:33
微博认证:AI博主

DeepSeek V4 技术报告英中对照版.pdf http://t.cn/AXxHZ4vK

V4核心主题是:通过新的架构和工程优化,让大模型更高效地支持 百万 token 上下文。

一句话总结:
DeepSeek-V4 不是单纯把模型做大,而是围绕“长上下文推理效率”重做了注意力、残差连接、优化器和训练/推理基础设施,使 1M token 上下文在成本上更可行。

主要内容:

模型系列
DeepSeek-V4-Pro:1.6T 总参数,49B 激活参数。
DeepSeek-V4-Flash:284B 总参数,13B 激活参数。
两者都支持 100 万 token 上下文。
核心架构升级
引入 混合注意力架构:CSA + HCA。
CSA:先压缩 KV Cache,再做稀疏注意力。
HCA:更激进地压缩 KV Cache,但保持稠密注意力。
目标是大幅降低长上下文下的 FLOPs 和 KV Cache 占用。
长上下文效率提升明显
单 token 推理 FLOPs 只需约 27%;
KV Cache 只需约 10%。
在 1M token 场景下,DeepSeek-V4-Pro 相比 DeepSeek-V3.2:
DeepSeek-V4-Flash 更激进,FLOPs 和 KV Cache 进一步降低。
引入 mHC 残差连接
文档提出 Manifold-Constrained Hyper-Connections,用来增强传统残差连接。
主要作用是提高深层模型训练时的信号传播稳定性,同时保留表达能力。
使用 Muon 优化器
DeepSeek-V4 大部分模块使用 Muon 优化器。
目的:更快收敛、更稳定训练。
部分模块仍保留 AdamW,例如 embedding、prediction head、RMSNorm 等。
训练与后训练
先分别训练数学、代码、Agent、指令跟随等领域专家模型;
再通过 on-policy distillation,把多个专家能力蒸馏到统一模型中。
预训练数据超过 32T tokens。
后训练采用两阶段:
能力表现
DeepSeek-V4-Pro-Max 在知识、推理、Agent、长上下文任务上达到开源模型前列。
文档认为其在部分推理能力上接近或略落后于最前沿闭源模型。
DeepSeek-V4-Flash 参数更小,但在推理任务中通过更大 thinking budget 可以接近更大模型表现。

发布于 江苏