DeepSeek V4发布_新浪新闻

#DeepSeekV4# 【DeepSeek V4来了：在喧哗众声中，按自己的节奏讲开源故事】

4 月 24 日，#DeepSeek# 在 Hugging Face 上传了 V4 系列的预览版本。这一代分两个型号，旗舰 V4-Pro 总参数 1.6 万亿、激活 490 亿，V4-Flash 总参数 2,840 亿、激活 130 亿，两款均支持 100 万 tokens 上下文，均为 MoE 架构、纯文本模型。与模型一同放出的还有 58 页的技术报告，标题为《DeepSeek V4：迈向高效的百万 token 上下文智能》。

1.6T 的参数规模比年初泄露的 1T 传闻高出 60%，一周前 DeepGEMM 算子库的更新放出时，社区就已经反推出了这个数字。技术报告里还有一个此前没有的细节：V4-Flash 训练了 32T tokens，V4-Pro 训练了 33T tokens，都比 V3 的 14.8T 高了一倍多。

V4 最核心的架构改动是一个分层的混合注意力机制。DeepSeek 这次设计了两个模块：Compressed Sparse Attention（CSA）和 Heavily Compressed Attention（HCA），在各层之间交替使用。CSA 先把每 4 个 token 的 KV cache 压成 1 个 entry，再在压缩后的序列上跑稀疏注意力（V3.2 引入的 DSA 机制的延续），每个查询只和 top-k 个压缩块做注意力；HCA 则更激进，直接把每 128 个 token 压成 1 个 entry，但保持稠密注意力。

两者配合的结果是：在 100 万 tokens 上下文下，V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%，KV cache 只有 10%；V4-Flash 更极端，FLOPs 是 V3.2 的约 10%，KV cache 是 7%。和传统 BF16 GQA8 的基线对比，V4 在 1M 场景下的 KV cache 可以压到基线的约 2%。

戳链接查看详情：http://t.cn/AXxOhMkJ