爱可可-爱生活
26-06-16 05:13 微博认证:AI博主 2025微博新锐新知博主

[LG]《Gefen: Optimized Stochastic Optimizer》N Benedek, T Koren, O Fried [Reichman University & Tel Aviv University] (2026)

在大模型训练中,AdamW 的优化器状态独占约 2 倍参数内存。现有压缩方案要么依赖手工架构规则(需用户告知注意力头数量),要么使用固定次优量化码本——本质原因是缺乏一个能自动推断"哪些参数可以共享统计量"的理论依据。

本文的核心洞见是:把"参数能否共享二阶矩"重新看作"海森矩阵耦合越强,两个参数的梯度平方之比被迫越趋近于 1"的几何约束。由此,仅凭首步梯度的分块方差即可自动定位分组边界;同一分组被复用于最优动态规划量化,无需任何架构元信息或额外超参数。

这项工作真正留下的遗产是:海森结构可从梯度分布中被动读取,使参数分组从手工规则变为纯数据驱动,内存降至 AdamW 的八分之一而性能不变。它为后来者打开的新门是:优化器内存压缩与 FSDP 等分布式方案的正交叠加(实测吞吐提升 56%)。但尚未跨过的门槛是:收敛性保证仅停留在经验层面,理论推导严格覆盖的仅是两层 MLP。

arxiv.org/abs/2606.13894 #机器学习# #人工智能# #论文# #AI创造营#

发布于 北京