淘沙博士 25-02-25 19:03
微博认证:北京江亿资本管理有限公司 基金经理

DeepSeek连出大招!这小刀剌肉、凌迟手法是越来越纯熟了。

今天开源周第二天,开源的项目叫DeepEP,是第一个用于混合专家(MoE)模型训练和推理的开源EP通信库。

那这玩意能干吗?简单来说:它能大幅提高GPU的字符吞吐量,并降低字符处理延迟,也就是提高GPU的通信效率。

具体技术细节太硬核,我打个比方解释一下,大家就能明白了。

一个MoE模型,你可以理解为里面坐着512个专家,每个人都干自己的事,有些擅长翻译,有些擅长数学,有些擅长哲学,这就是"混合专家模型"名字的由来。

但这512个人,过去靠嘴通信,而且是同时在说话,吵来吵去的,非常混乱,导致工作效率不高。

现在这个DeepEP,相当于中间放了一个降临派外星人,能够同时接收所有专家的信息,再靠电磁波分发出去,不需要语言,纯意念交流,速度奇快无比,还没有延迟(延迟低至186微秒)。

而且整个地球可以同时感知一个外星人的所有信息,这就是"all-to-all"通信。

因为信息是靠电磁波传递的,没有损失和误解,这就是数据在传输过程中保持完整,支持FP8通信的意思。

最牛逼的是,DeepSeek独立发现并使用了一个未在英伟达官方文档中披露的PTX指令,由此可以获得GPU的“极致性能”,extreme performance。

该指令可以绕过 L1 缓存,从全局内存加载数据,并以256字节的大小通过L2缓存处理数据。

这是啥意思?很简单,相当于DeepSeek拍着黄仁勋的肩膀说:兄弟,对不住了,你老婆什么情况,我比你更懂。

再来简单回顾下昨天开源的FlashMLA算法(多层注意力机制)。

这种算法,可以大幅提升GPU的计算速度,具体来讲,在H800 GPU上运行 CUDA 12.6,计算速度可达580万亿次浮点运算/s,内存带宽输出可达3000GB/s,相较传统算法,效率提升30%以上。

现在明白DeepSeek开源的是什么东西了吧?这是要帮助全世界,来榨干N卡性能的每一滴汁液啊。

发布于 北京