我猜一手Deepseek宣布V4永久降价的原因~
1、昇腾950又交付了一批
Deepseek V4,用的原生的FP4量化感知训练,对专家权重和后训练使用FP4精度。
昇腾950系列的FP4算力是1.56P-2P,实际跑FP4精度的模型,算力跟H200一个级别。
昇腾950卡间互联带宽2TB/S,H200是900GB/s。950的内存池化和超节点性能就容易比H200做得更好。
考虑到昇腾950的价格和H200的价格,单token成本是节约了很多的。
这可能也是DeepSeek团队之前特地强调了,等下半年昇腾超节点供应后会降价,但现在就降价了。
2、Deepseek的上下文缓存优化的太好,只计算增量,节约了大量算力。
我今天又看了看Deepseek的缓存说明,他们表示缓存构建是不会自动清空,时间一般到几个小时到几天。
作为对比,其他家的缓存大多存在系统的DRAM里,比显卡的HBM慢一些,但是比SSD快。而Deepseek用上了SSD,这样上下文的缓存成本就很低。
而因为上下文长期被缓存,所以Deepseek每次输入的时候,也只需要记算更新的部分。
作为对比,其他家如果缓存时间短,可能只有分钟级别,这种情况就会导致缓存不命中,然后再一次计算。这时候对计算量、对算力的需求就又上去了。
换句话说,Deepseek只对增量计算,于是真实的算力需求,可能比预期也小很多。
拿我自己前两天猛用来说,虽然主要是文本内容的撰写和改写,还不是写代码类的,缓存命中都能有90%。如果是偏代码类的任务,缓存命中通常在99%以上。
而别家的缓存命中率往往都没有这个级别,通常也就90左右,有的模型可能缓存命中率更低。反过来,需求的算力更大了。
此外值得一提的是 DeepseekV4也在被全世界猛登,已经超过了之前免费送token刷榜的模型们了。
鲸鱼好啊鲸鱼妙,鲸鱼用的我呱呱叫。
感恩DeepSeek,感恩华为昇腾950。
最近工作强度飙升,要不是Deepseek V4 Pro,我早加班到死了。
#微博新知#
