DeepSeek为何这么便宜

为什么 DeepSeek可以这么便宜?

以及它的这个表现到底是一个什么级别。

我以 100 万（1M）上下文长度为例进行计算，假设 KV 精度为 8 位（8-bit），索引器精度为 16 位（16-bit），来看几个常见模型。

首先这个Deepseek V4 Pro它需要5.4GB 的 HBM。
Kimi 2.6 需要 32.7GB 的 HBM
Qwen3-27B 需要 30GB 的 HBM
MiniMax M2.7 需要 118GB

DeepSeek V4 的消耗是他们的1/10，甚至是1/20。

你还要需要注意一个大前提——
DeepSeek 是一个拥有 1.6 万亿（1.6T）参数的巨无霸模型，而GML5大概只有700B的参数，更别提那个 Qwen3-27B了。