[CL]《Variable-Width Transformers》Z Wu, O Sieberling, S Tan, R Panda, Y Polyanskiy, Y Kim [MIT] (2026)
在语言模型架构设计中,一个久未被检视的假设是所有层的宽度应保持恒定。虽然研究者已知不同层执行不同的计算角色,但当前变压器仍将参数预算均匀分配于每一层,这在直觉上并非最优。
本文的核心洞见是:把层宽度从固定改为可变,特别采用×形设计——早期层和末期层较宽,中间层更窄。通过参数无关的残差流重映射机制(复制未使用的维度向上传递),这一结构使得在参数匹配的约束下,既能保持性能优势,又能实现严格的计算与内存收益。
这项工作真正留下的遗产是打破了变压器"均匀宽度"的设计约定,为后来者展示了沿深度方向进行非均匀容量分配的可行性。它为高效缩放打开了新门——在参数等量的条件下降低22%的FLOPs、改善了KV缓存,但尚未跨过的门槛是实现基础设施对异构宽度的高效支持,目前仍需专用核函数优化。
arxiv.org/abs/2606.18246 #机器学习# #人工智能# #论文# #AI创造营#
发布于 北京
