kimi新发布了一个论文，终于对优化器也动手了，现在训练的优化器都是adamw，也算久经沙场的老将。他们用的muon优化器也不是新东西，但他们改了muon，提出通过逐参数更新尺度调整，保持矩阵与非矩阵参数更新均方根（RMS）一致性，也就训练稳定性更高，使其对分布式训练更友好。不同于adamw的m和v一阶二

kimi新发布了一个论文，终于对优化器也动手了，现在训练的优化器都是adamw，也算久经沙场的老将。他们用的muon优化器也不是新东西，但他们改了muon，提出通过逐参数更新尺度调整，保持矩阵与非矩阵参数更新均方根（RMS）一致性，也就训练稳定性更高，使其对分布式训练更友好。不同于adamw的m和v一阶二阶导，muon直接svd矩阵正交，虽然省点显存，但是不多，主要优势是省算力而且损失函数缩放不影响优化轨迹，天然支持自适应的学习率，而且他们把zero1原生给做进去了，比较适合llm。他们测试能把优化器消耗的算力减半，但是开放的模型测试太小，不知道大规模的效果如何，等待验证。这波争当优化侠的趋势起来了以后，算法engineer high了，反正都自己玩，本来也不需要标准化，历史最好的一年可以说是。今年把任何东西给改了，我都不奇怪了[汗]

发布于日本