DeepSeek连出大招！这小刀剌肉、凌迟手法是越来越纯熟了。今天开源周第二天，开源的项目叫DeepEP，是第一个用于混合专家（MoE）模型训练和推理的开源EP通信库。那这玩意能干吗？简单来说：它能大幅提高GPU的字符吞吐量，并降低字符处理延迟，也就是提高GPU的通信效率。具体技术细节太硬核，我打

DeepSeek连出大招！这小刀剌肉、凌迟手法是越来越纯熟了。

今天开源周第二天，开源的项目叫DeepEP，是第一个用于混合专家（MoE）模型训练和推理的开源EP通信库。

那这玩意能干吗？简单来说：它能大幅提高GPU的字符吞吐量，并降低字符处理延迟，也就是提高GPU的通信效率。

具体技术细节太硬核，我打个比方解释一下，大家就能明白了。

一个MoE模型，你可以理解为里面坐着512个专家，每个人都干自己的事，有些擅长翻译，有些擅长数学，有些擅长哲学，这就是"混合专家模型"名字的由来。

但这512个人，过去靠嘴通信，而且是同时在说话，吵来吵去的，非常混乱，导致工作效率不高。

现在这个DeepEP，相当于中间放了一个降临派外星人，能够同时接收所有专家的信息，再靠电磁波分发出去，不需要语言，纯意念交流，速度奇快无比，还没有延迟（延迟低至186微秒）。

而且整个地球可以同时感知一个外星人的所有信息，这就是"all-to-all"通信。

因为信息是靠电磁波传递的，没有损失和误解，这就是数据在传输过程中保持完整，支持FP8通信的意思。

最牛逼的是，DeepSeek独立发现并使用了一个未在英伟达官方文档中披露的PTX指令，由此可以获得GPU的“极致性能”，extreme performance。

该指令可以绕过 L1 缓存，从全局内存加载数据，并以256字节的大小通过L2缓存处理数据。

这是啥意思？很简单，相当于DeepSeek拍着黄仁勋的肩膀说：兄弟，对不住了，你老婆什么情况，我比你更懂。

再来简单回顾下昨天开源的FlashMLA算法（多层注意力机制）。

这种算法，可以大幅提升GPU的计算速度，具体来讲，在H800 GPU上运行 CUDA 12.6，计算速度可达580万亿次浮点运算/s，内存带宽输出可达3000GB/s，相较传统算法，效率提升30%以上。

现在明白DeepSeek开源的是什么东西了吧？这是要帮助全世界，来榨干N卡性能的每一滴汁液啊。

发布于北京