DeepSeek开源了首个代码库——FlashMLA。MLA，多层注意力机制，是一种改进的注意力机制，可以提高Transformer模型在处理长序列时的效率和性能‌。Flash MLA的核心是加速大语言模型的解码过程，提高模型的响应速度和吞吐量，也就是大幅提升大模型的推理速度。据DeepSeek表示，在H800上能实现3000GB/

DeepSeek开源了首个代码库——FlashMLA。

MLA，多层注意力机制，是一种改进的注意力机制，可以提高Transformer模型在处理长序列时的效率和性能‌。Flash MLA的核心是加速大语言模型的解码过程，提高模型的响应速度和吞吐量，也就是大幅提升大模型的推理速度。

据DeepSeek表示，在H800上能实现3000GB/s的内存带宽和580TFLOPS的计算性能，也就是内存带宽和推理性能都提升了2-3倍。

发布于湖北