大模型参数规模对比

现在的大模型其实是颠覆常识的。
很多人理解不了这一点。

谷歌2018年推出的自然语言处理模型BERT，我查了一下参数。
BERT 提供两种主要架构：
BERT-Base：12 层编码器，768 维隐藏层，12 个注意力头，总参数量约 1.1 亿。
BERT-Large：24 层编码器，1024 维隐藏层，16 个注意力头，总参数量约 3.4 亿。

就是最大的，也就是3.4亿参数，就是0.34B。
这个当时就叫大模型，任何搞自然语言处理的，都觉得这个参数量实在是太大了，太大了。
怎么有人有钱有能力做这么大参数的模型？还这么多层？
简直让人惊叹。
更大的模型，简直不可想象，这就是很多人没想到的地方。

现在呢？
Qwen 3.5系列最小的模型0.8B，大家都觉得小得不得了，实际几乎是BERT的两倍大小了。
Qwen 3.5系列开源的最大模型397B，是BERT的1167.6倍。
这还是不是开源模型里面最大的。

看看这个数字，你就知道这件事情有多颠覆常识了。

发布于江苏