硕士生Transformer研究获收录

我的硕士生钟万里同学选了一个很硬的题目《Transformer推理的优化》。这是个偏系统而非算法的研究方向，发论文比较有难度，很容易“不成功就成仁”，毕业时无论文发表导致毕业困难。经历无数个日夜的辛苦工作，钟同学的成果被顶级学术会议MLSys2026认可并接收（今年只接收了135篇论文，录用率约25%）。

这项工作围绕一个非常实际的问题展开：我们都知道，把 Transformer 的权重和矩阵乘法（GEMM）量化到 INT8，是加速推理的第一步，也是收益最大的一步。但是，当矩阵乘法已经快到极致时，为什么推理延迟并没有进一步线性下降？瓶颈究竟卡在哪里？

论文的解读：http://t.cn/AXcMWpX1

发布于广东