Thinking Machines Lab 发布了第二篇技术Blog：Modular Manifolds http://t.cn/AX7G8wQI（第一篇是备受好评的、讨论如何让大语言模型100%输出同样的结果的文章 http://t.cn/AXhFOa33 ）这篇文章也写的很深入。大模型的训练动辄需持续数周甚至数月，最可怕的事情莫过于训练到一半时因数值不稳定（梯

Thinking Machines Lab 发布了第二篇技术Blog：Modular Manifolds http://t.cn/AX7G8wQI
（第一篇是备受好评的、讨论如何让大语言模型100%输出同样的结果的文章 http://t.cn/AXhFOa33 ）

这篇文章也写的很深入。
大模型的训练动辄需持续数周甚至数月，最可怕的事情莫过于训练到一半时因数值不稳定（梯度爆炸、损失变成NaN）而整个过程崩溃。本文期望解决的问题就是在训练大型神经网络时，因网络内部张量（特别是权重矩阵）尺度失控而引发的一系列训练不稳定、优化困难和行为不可预测的问题。
其核心思想是与其在训练中祈祷模型的权重不要“跑偏”，为什么不从一开始就给它们设定好规范化方法呢？
作者 Jeremy Bernstein 提出了一个极具启发性的方法——将神经网络中的权重矩阵约束在一种被称为“流形”（Manifold）的数学结构上。做好了可以取代目前主流的优化器。不过目前还在研究阶段。
#AI创造营##微博兴趣创作计划##AI生活指南#

发布于山东