大模型算力进化史

【大模型为什么越跑越快？一篇看懂 LLM 算力进化史】
大语言模型（LLM）运行时，绝大部分时间都在做矩阵乘法。英伟达、谷歌专门为此打造了脉动阵列硬件：英伟达张量核心（Tensor Core）、谷歌 TPU，天生擅长矩阵运算。
而模型第二耗资源的操作是注意力机制（Attention），它的瓶颈和矩阵乘法完全不同。
注意力机制其实很简单：
用 Q 乘 K 的转置，得到一个 n×n 分数矩阵
用 Softmax 做归一化
再乘上 V，得到输出
矩阵乘法没问题，真正拖慢速度的是 Softmax。
矩阵乘法可以轻松分块计算，互不干扰。但 Softmax 必须先知道一整行的最大值和指数总和，才能算出结果。不看完整行，就无法计算。
这就陷入两难：
分块把数据存在芯片里，Softmax 算不了
不分块，就要把巨大的 n×n 矩阵反复读写显存，张量核心只能空等数据
多年来，稀疏注意力、线性注意力等方案都在减少计算量，却没带来实质提速，因为瓶颈不是算力，而是内存读写。
2018 年，英伟达两位研究者提出关键思路：动态更新最大值与总和，让 Softmax 可以增量计算，不用等完整行数据。
4 年后，斯坦福学者基于这一技巧，推出 FlashAttention：
把 Q×Kᵀ、Softmax、乘 V 三步融合成一个 GPU 核
把数据切成小块放进芯片缓存
全程不把大矩阵写入显存
从此彻底解决内存瓶颈。
FlashAttention-2 将硬件利用率从 25%–40% 提升到 50%–73%。
FlashAttention-3 更进一步，让张量核心和计算 Softmax 的硬件单元真正并行工作。
到今天，英伟达 Blackwell Ultra 架构直接把 Softmax 专用的硬件指数计算单元吞吐量翻倍。
从算法优化到硬件升级，行业终于补齐了注意力机制的短板。
硬件，终于追上了大模型

发布于新加坡