#DeepSeekV4# 【DeepSeek V4来了:在喧哗众声中,按自己的节奏讲开源故事】
4 月 24 日,#DeepSeek# 在 Hugging Face 上传了 V4 系列的预览版本。这一代分两个型号,旗舰 V4-Pro 总参数 1.6 万亿、激活 490 亿,V4-Flash 总参数 2,840 亿、激活 130 亿,两款均支持 100 万 tokens 上下文,均为 MoE 架构、纯文本模型。与模型一同放出的还有 58 页的技术报告,标题为《DeepSeek V4:迈向高效的百万 token 上下文智能》。
1.6T 的参数规模比年初泄露的 1T 传闻高出 60%,一周前 DeepGEMM 算子库的更新放出时,社区就已经反推出了这个数字。技术报告里还有一个此前没有的细节:V4-Flash 训练了 32T tokens,V4-Pro 训练了 33T tokens,都比 V3 的 14.8T 高了一倍多。
V4 最核心的架构改动是一个分层的混合注意力机制。DeepSeek 这次设计了两个模块:Compressed Sparse Attention(CSA)和 Heavily Compressed Attention(HCA),在各层之间交替使用。CSA 先把每 4 个 token 的 KV cache 压成 1 个 entry,再在压缩后的序列上跑稀疏注意力(V3.2 引入的 DSA 机制的延续),每个查询只和 top-k 个压缩块做注意力;HCA 则更激进,直接把每 128 个 token 压成 1 个 entry,但保持稠密注意力。
两者配合的结果是:在 100 万 tokens 上下文下,V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%,KV cache 只有 10%;V4-Flash 更极端,FLOPs 是 V3.2 的约 10%,KV cache 是 7%。和传统 BF16 GQA8 的基线对比,V4 在 1M 场景下的 KV cache 可以压到基线的约 2%。
戳链接查看详情:http://t.cn/AXxOhMkJ
