现在的大模型其实是颠覆常识的。
很多人理解不了这一点。
谷歌2018年推出的自然语言处理模型BERT,我查了一下参数。
BERT 提供两种主要架构:
BERT-Base:12 层编码器,768 维隐藏层,12 个注意力头,总参数量约 1.1 亿。
BERT-Large:24 层编码器,1024 维隐藏层,16 个注意力头,总参数量约 3.4 亿。
就是最大的,也就是3.4亿参数,就是0.34B。
这个当时就叫大模型,任何搞自然语言处理的,都觉得这个参数量实在是太大了,太大了。
怎么有人有钱有能力做这么大参数的模型?还这么多层?
简直让人惊叹。
更大的模型,简直不可想象,这就是很多人没想到的地方。
现在呢?
Qwen 3.5系列最小的模型0.8B,大家都觉得小得不得了,实际几乎是BERT的两倍大小了。
Qwen 3.5系列开源的最大模型397B,是BERT的1167.6倍。
这还是不是开源模型里面最大的。
看看这个数字,你就知道这件事情有多颠覆常识了。
发布于 江苏
