深度求索开源第二代MoE模型:DeepSeek-V2。
- 中文综合能力(AlignBench)开源模型中最强,与 GPT-4-Turbo,文心 4.0 等闭源模型在评测中处于同一梯队;
- 英文综合能力(MT-Bench)与最强的开源模型 LLaMA3-70B 同处第一梯队,超过最强 MoE 开源模型 Mixtral 8x22B;
- 支持 128K 上下文窗口;
- 模型参数 2360 亿,激活参数 210 亿;
- 8.1 万亿个 tokens 上进行了预训练;
DeepSeek-V2没有沿用主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”,而是在模型架构方面作了如下创新:
- 在注意力方面,设计了 MLA(Multi-head Latent Attention,多头潜注意力),它利用低级 key-value 联合压缩来消除推理时 key-value 缓存的瓶颈,从而支持高效推理;
- 前馈网络(FFN)采用了 DeepSeekMoE 架构,这是一种高性能的 MoE 架构,能以更低的成本训练出更强大的模型。
官方表示,据不严谨估计,DeepSeek-V2 以 236B 总参数、21B 激活,大致达到70B~110B Dense 的模型能力,同时消耗的显存(KV Cache)只有同级别 Dense 模型的 1/5~1/100,每 token 成本大幅降低。实际部署在 8 卡 H800 机器上,输入吞吐量超过每秒 10 万 tokens,输出超过每秒 5 万 tokens。
定价方面,DeepSeek-V2 API的定价为每百万tokens输入1元、输出2元(32K上下文)。
技术报告:http://t.cn/A6HZsFEQ
模型权重:http://t.cn/A6lofvg4
