我的硕士生钟万里同学选了一个很硬的题目《Transformer推理的优化》。这是个偏系统而非算法的研究方向,发论文比较有难度,很容易“不成功就成仁”,毕业时无论文发表导致毕业困难。经历无数个日夜的辛苦工作,钟同学的成果被顶级学术会议MLSys2026认可并接收(今年只接收了135篇论文,录用率约25%)。
这项工作围绕一个非常实际的问题展开:我们都知道,把 Transformer 的权重和矩阵乘法(GEMM)量化到 INT8,是加速推理的第一步,也是收益最大的一步。但是,当矩阵乘法已经快到极致时,为什么推理延迟并没有进一步线性下降?瓶颈究竟卡在哪里?
论文的解读:http://t.cn/AXcMWpX1
发布于 广东
