还是说说行业内的一些情况吧。目前业界发展有一个矛盾。1)希望更多的参数,来承接各种多样化的数据 2)但这些参数会触及到显存的上限。 那么是硬件厂商迁就模型训练的需要,还是模型训练迁就硬件发展的水平。
目前看,基本是模型迁就硬件发展水平,比如最要命的就是这个显存,显卡用的都是 HBM(High Bandwidth Memory,高带宽内存),这个领域SK hynix是领导者,英伟达的H100,GB200这些主要买的他们的显存,镁光和三星也在后面追赶也获得了一些订单。但说实话,显存的容量,时延这些指标发展是有点跟不上的。
模型的大小就被显存卡住了嘛?不是的,训练阶段,比较吃内存的是在FFN这块;推理阶段,吃内存的是KV cache(KV cache和用户数相关)和 FFN。现在基本都采用FFN 稀疏化(就是MOE),推理阶段主要靠分布式来扛KV cache。都是显存不足恐惧症导致的。所以显存这块市场的期待是极大的,这也是我之前看好美光的原因,但是后来因为股价没走好,被网友骂死了(虽然现在涨了,也晚了)。
显存厂商一方面要扩大显存的大小和带宽,现在都是TB/s 这个水平。H100 单卡显存一般是80GB/条,单机8张卡,也就640GB 显存,真是紧巴巴的,模型水平还要向上走,显存跟不上,只能各种稀疏化(注意力稀疏,FFN稀疏)+ 低比特量化。厂商也知道只要显存一扩大,功耗悠着点,大厂还是会购买的,真是一切才刚刚开始。高带宽内存的技术是非常需要突破的,前景是好的。
发布于 江苏
