可变宽度Transformer

[CL]《Variable-Width Transformers》Z Wu, O Sieberling, S Tan, R Panda, Y Polyanskiy, Y Kim [MIT] (2026)

在语言模型架构设计中，一个久未被检视的假设是所有层的宽度应保持恒定。虽然研究者已知不同层执行不同的计算角色，但当前变压器仍将参数预算均匀分配于每一层，这在直觉上并非最优。

本文的核心洞见是：把层宽度从固定改为可变，特别采用×形设计——早期层和末期层较宽，中间层更窄。通过参数无关的残差流重映射机制（复制未使用的维度向上传递），这一结构使得在参数匹配的约束下，既能保持性能优势，又能实现严格的计算与内存收益。

这项工作真正留下的遗产是打破了变压器"均匀宽度"的设计约定，为后来者展示了沿深度方向进行非均匀容量分配的可行性。它为高效缩放打开了新门——在参数等量的条件下降低22%的FLOPs、改善了KV缓存，但尚未跨过的门槛是实现基础设施对异构宽度的高效支持，目前仍需专用核函数优化。

arxiv.org/abs/2606.18246 #机器学习# #人工智能# #论文# #AI创造营#

发布于北京