DeepSeek开源了首个代码库——FlashMLA。
MLA,多层注意力机制,是一种改进的注意力机制,可以提高Transformer模型在处理长序列时的效率和性能。Flash MLA的核心是加速大语言模型的解码过程,提高模型的响应速度和吞吐量,也就是大幅提升大模型的推理速度。
据DeepSeek表示,在H800上能实现3000GB/s的内存带宽和580TFLOPS的计算性能,也就是内存带宽和推理性能都提升了2-3倍。
发布于 湖北
DeepSeek开源了首个代码库——FlashMLA。
MLA,多层注意力机制,是一种改进的注意力机制,可以提高Transformer模型在处理长序列时的效率和性能。Flash MLA的核心是加速大语言模型的解码过程,提高模型的响应速度和吞吐量,也就是大幅提升大模型的推理速度。
据DeepSeek表示,在H800上能实现3000GB/s的内存带宽和580TFLOPS的计算性能,也就是内存带宽和推理性能都提升了2-3倍。