Thinking Machines Lab发布的《模块流形》一文，为大模型训练提供了全新思路，旨在解决大规模神经网络训练中权重管理和数值不稳定等问题。将权重张量约束在特定数学流形内，把传统的事后数值修正转变为事前的约束优化。通过预先设定健康参数区间，使模型训练过程更具可控性和可解释性，让优化算法能

Thinking Machines Lab发布的《模块流形》一文，为大模型训练提供了全新思路，旨在解决大规模神经网络训练中权重管理和数值不稳定等问题。
将权重张量约束在特定数学流形内，把传统的事后数值修正转变为事前的约束优化。通过预先设定健康参数区间，使模型训练过程更具可控性和可解释性，让优化算法能够与流形约束协同工作，从根本上提升训练稳定性。
利用数学流形局部平坦的特性，其切空间结构允许优化过程沿曲面自然推进。通过拉格朗日乘数法求解最优更新方向，构建带约束的优化框架，确保每次参数更新既落在流形切空间内，又满足预设的步长约束。这种“回缩映射”机制可将偏离流形的参数修正回约束空间，保持优化方向的数学最优性。
提出Stiefel流形约束方案，通过奇异值分解将权重矩阵的拉伸效应约束在单位范围内，防止输出值极端变化。结合谱范数距离度量，开发出Muon优化器的流形版本，有效控制权重更新的最大影响范围，避免数值异常。
通过追踪网络输出的Lipschitz敏感性，构建层间学习率分配机制。该机制能根据各层对最终输出的影响程度，动态调整优化策略，使不同层之间的参数更新保持协调，实现更高效的参数更新，避免训练不稳定。#互联网科技##声音引力场##2025微博音频创享日# http://t.cn/AX7fauw2

发布于福建