GPUS开发者 26-03-04 16:02

【大模型为什么越跑越快?一篇看懂 LLM 算力进化史】
大语言模型(LLM)运行时,绝大部分时间都在做矩阵乘法。英伟达、谷歌专门为此打造了脉动阵列硬件:英伟达张量核心(Tensor Core)、谷歌 TPU,天生擅长矩阵运算。
而模型第二耗资源的操作是注意力机制(Attention),它的瓶颈和矩阵乘法完全不同。
注意力机制其实很简单:
用 Q 乘 K 的转置,得到一个 n×n 分数矩阵
用 Softmax 做归一化
再乘上 V,得到输出
矩阵乘法没问题,真正拖慢速度的是 Softmax。
矩阵乘法可以轻松分块计算,互不干扰。但 Softmax 必须先知道一整行的最大值和指数总和,才能算出结果。不看完整行,就无法计算。
这就陷入两难:
分块把数据存在芯片里,Softmax 算不了
不分块,就要把巨大的 n×n 矩阵反复读写显存,张量核心只能空等数据
多年来,稀疏注意力、线性注意力等方案都在减少计算量,却没带来实质提速,因为瓶颈不是算力,而是内存读写。
2018 年,英伟达两位研究者提出关键思路:动态更新最大值与总和,让 Softmax 可以增量计算,不用等完整行数据。
4 年后,斯坦福学者基于这一技巧,推出 FlashAttention:
把 Q×Kᵀ、Softmax、乘 V 三步融合成一个 GPU 核
把数据切成小块放进芯片缓存
全程不把大矩阵写入显存
从此彻底解决内存瓶颈。
FlashAttention-2 将硬件利用率从 25%–40% 提升到 50%–73%。
FlashAttention-3 更进一步,让张量核心和计算 Softmax 的硬件单元真正并行工作。
到今天,英伟达 Blackwell Ultra 架构直接把 Softmax 专用的硬件指数计算单元吞吐量翻倍。
从算法优化到硬件升级,行业终于补齐了注意力机制的短板。
硬件,终于追上了大模型

发布于 新加坡