Gefen优化器内存压缩8倍

[LG]《Gefen: Optimized Stochastic Optimizer》N Benedek, T Koren, O Fried [Reichman University & Tel Aviv University] (2026)

在大模型训练中，AdamW 的优化器状态独占约 2 倍参数内存。现有压缩方案要么依赖手工架构规则（需用户告知注意力头数量），要么使用固定次优量化码本——本质原因是缺乏一个能自动推断"哪些参数可以共享统计量"的理论依据。

本文的核心洞见是：把"参数能否共享二阶矩"重新看作"海森矩阵耦合越强，两个参数的梯度平方之比被迫越趋近于 1"的几何约束。由此，仅凭首步梯度的分块方差即可自动定位分组边界；同一分组被复用于最优动态规划量化，无需任何架构元信息或额外超参数。

这项工作真正留下的遗产是：海森结构可从梯度分布中被动读取，使参数分组从手工规则变为纯数据驱动，内存降至 AdamW 的八分之一而性能不变。它为后来者打开的新门是：优化器内存压缩与 FSDP 等分布式方案的正交叠加（实测吞吐提升 56%）。但尚未跨过的门槛是：收敛性保证仅停留在经验层面，理论推导严格覆盖的仅是两层 MLP。

arxiv.org/abs/2606.13894 #机器学习# #人工智能# #论文# #AI创造营#

发布于北京