坤小七Human
25-02-27 10:31 微博认证:财经观察官 财经博主

DeepSeek开源了首个代码库——FlashMLA。

MLA,多层注意力机制,是一种改进的注意力机制,可以提高Transformer模型在处理长序列时的效率和性能‌。Flash MLA的核心是加速大语言模型的解码过程,提高模型的响应速度和吞吐量,也就是大幅提升大模型的推理速度。

据DeepSeek表示,在H800上能实现3000GB/s的内存带宽和580TFLOPS的计算性能,也就是内存带宽和推理性能都提升了2-3倍。

发布于 湖北