《Inside NVIDIA GPUs: Anatomy of high performance matmul kernels》NVIDIA GPU深度揭秘：高性能矩阵乘法（Matmul）核的设计原理Aleksa Gordić最新博客发布，带你彻底理解CUDA中如何打造顶尖Matmul核——这是Transformer训练和推理中最核心、最耗算力的操作。提升1%的效率，节省的能耗相当于多

《Inside NVIDIA GPUs: Anatomy of high performance matmul kernels》

NVIDIA GPU深度揭秘：高性能矩阵乘法（Matmul）核的设计原理

Aleksa Gordić最新博客发布，带你彻底理解CUDA中如何打造顶尖Matmul核——这是Transformer训练和推理中最核心、最耗算力的操作。提升1%的效率，节省的能耗相当于多个核电站，意义非凡！

主要内容包括：

- GPU架构基础，重点讲解内存层次（GMEM、SMEM、L1/L2）与CUDA编程模型的紧密联系，结合物理“光速”与功耗限制，构建精准的性能心智模型。
- PTX/SASS汇编详解，教你如何引导编译器生成理想代码（例如循环展开、向量化加载LDG.128），并暴露两大主流编译器的低效细节。
- 核心概念梳理：瓦片与波分配（tile/wave quantization）、占用率、指令级并行（ILP）、Roofline模型等。深入理解点积作为部分外积求和的本质，及为何正方形瓦片最优算力密度。
- Warp Tiling方法，近乎无张量核、TMA、异步内存指令和bf16的极限CUDA核心性能释放技巧。
- Hopper架构（H100）新特性解读：TMA、Swizzling、Tensor Core与wgmma指令，异步加载/存储流水线，Hilbert曲线调度，TMA多播集群以及更快的PTX Barrier。

本篇47张图，结合实例和可视化，首次让复杂的warp tiling清晰可见，真正“心中有图”。

深度理解GPU矩阵乘法核设计，掌握性能优化核心，必读！

全文链接：
aleksagordic.com/blog/matmul

发布于北京