kimi新发布了一个论文,终于对优化器也动手了,现在训练的优化器都是adamw,也算久经沙场的老将。他们用的muon优化器也不是新东西,但他们改了muon,提出通过逐参数更新尺度调整,保持矩阵与非矩阵参数更新均方根(RMS)一致性,也就训练稳定性更高,使其对分布式训练更友好。不同于adamw的m和v一阶二阶导,muon直接svd矩阵正交,虽然省点显存,但是不多,主要优势是省算力而且损失函数缩放不影响优化轨迹,天然支持自适应的学习率,而且他们把zero1原生给做进去了,比较适合llm。他们测试能把优化器消耗的算力减半,但是开放的模型测试太小,不知道大规模的效果如何,等待验证。这波争当优化侠的趋势起来了以后,算法engineer high了,反正都自己玩,本来也不需要标准化,历史最好的一年可以说是。今年把任何东西给改了,我都不奇怪了[汗]
发布于 日本
