李明殊
26-05-24 15:50 微博认证:微博新知博主

为什么 DeepSeek可以这么便宜?

以及它的这个表现到底是一个什么级别。

我以 100 万(1M)上下文长度为例进行计算,假设 KV 精度为 8 位(8-bit),索引器精度为 16 位(16-bit),来看几个常见模型。

首先这个Deepseek V4 Pro它需要5.4GB 的 HBM。
Kimi 2.6 需要 32.7GB 的 HBM
Qwen3-27B 需要 30GB 的 HBM
MiniMax M2.7 需要 118GB

DeepSeek V4 的消耗是他们的1/10,甚至是1/20。

你还要需要注意一个大前提——
DeepSeek 是一个拥有 1.6 万亿(1.6T)参数的巨无霸模型,而GML5大概只有700B的参数,更别提那个 Qwen3-27B了。

发布于 陕西