深度求索开源第二代MoE模型：DeepSeek-V2。- 中文综合能力（AlignBench）开源模型中最强，与 GPT-4-Turbo，文心 4.0 等闭源模型在评测中处于同一梯队；- 英文综合能力（MT-Bench）与最强的开源模型 LLaMA3-70B 同处第一梯队，超过最强 MoE 开源模型 Mixtral 8x22B；- 支持 128K 上下文窗口；- 模

深度求索开源第二代MoE模型：DeepSeek-V2。

- 中文综合能力（AlignBench）开源模型中最强，与 GPT-4-Turbo，文心 4.0 等闭源模型在评测中处于同一梯队；
- 英文综合能力（MT-Bench）与最强的开源模型 LLaMA3-70B 同处第一梯队，超过最强 MoE 开源模型 Mixtral 8x22B；
- 支持 128K 上下文窗口；
- 模型参数 2360 亿，激活参数 210 亿；
- 8.1 万亿个 tokens 上进行了预训练；

DeepSeek-V2没有沿用主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”，而是在模型架构方面作了如下创新：
- 在注意力方面，设计了 MLA（Multi-head Latent Attention，多头潜注意力），它利用低级 key-value 联合压缩来消除推理时 key-value 缓存的瓶颈，从而支持高效推理；
- 前馈网络（FFN）采用了 DeepSeekMoE 架构，这是一种高性能的 MoE 架构，能以更低的成本训练出更强大的模型。

官方表示，据不严谨估计，DeepSeek-V2 以 236B 总参数、21B 激活，大致达到70B~110B Dense 的模型能力，同时消耗的显存（KV Cache）只有同级别 Dense 模型的 1/5~1/100，每 token 成本大幅降低。实际部署在 8 卡 H800 机器上，输入吞吐量超过每秒 10 万 tokens，输出超过每秒 5 万 tokens。

定价方面，DeepSeek-V2 API的定价为每百万tokens输入1元、输出2元（32K上下文）。

技术报告：http://t.cn/A6HZsFEQ

模型权重：http://t.cn/A6lofvg4

发布于北京