Thinking Machines Lab发布的《模块流形》一文,为大模型训练提供了全新思路,旨在解决大规模神经网络训练中权重管理和数值不稳定等问题。
将权重张量约束在特定数学流形内,把传统的事后数值修正转变为事前的约束优化。通过预先设定健康参数区间,使模型训练过程更具可控性和可解释性,让优化算法能够与流形约束协同工作,从根本上提升训练稳定性。
利用数学流形局部平坦的特性,其切空间结构允许优化过程沿曲面自然推进。通过拉格朗日乘数法求解最优更新方向,构建带约束的优化框架,确保每次参数更新既落在流形切空间内,又满足预设的步长约束。这种“回缩映射”机制可将偏离流形的参数修正回约束空间,保持优化方向的数学最优性。
提出Stiefel流形约束方案,通过奇异值分解将权重矩阵的拉伸效应约束在单位范围内,防止输出值极端变化。结合谱范数距离度量,开发出Muon优化器的流形版本,有效控制权重更新的最大影响范围,避免数值异常。
通过追踪网络输出的Lipschitz敏感性,构建层间学习率分配机制。该机制能根据各层对最终输出的影响程度,动态调整优化策略,使不同层之间的参数更新保持协调,实现更高效的参数更新,避免训练不稳定。#互联网科技##声音引力场##2025微博音频创享日# http://t.cn/AX7fauw2
发布于 福建
