蚁工厂 25-09-27 09:27
微博认证:科技博主

Thinking Machines Lab 发布了第二篇技术Blog:Modular Manifolds http://t.cn/AX7G8wQI
(第一篇是备受好评的、讨论如何让大语言模型100%输出同样的结果的文章 http://t.cn/AXhFOa33 )

这篇文章也写的很深入。
大模型的训练动辄需持续数周甚至数月,最可怕的事情莫过于训练到一半时因数值不稳定(梯度爆炸、损失变成NaN)而整个过程崩溃。本文期望解决的问题就是在训练大型神经网络时,因网络内部张量(特别是权重矩阵)尺度失控而引发的一系列训练不稳定、优化困难和行为不可预测的问题。
其核心思想是与其在训练中祈祷模型的权重不要“跑偏”,为什么不从一开始就给它们设定好规范化方法呢?
作者 Jeremy Bernstein 提出了一个极具启发性的方法——将神经网络中的权重矩阵约束在一种被称为“流形”(Manifold)的数学结构上。做好了可以取代目前主流的优化器。不过目前还在研究阶段。
#AI创造营##微博兴趣创作计划##AI生活指南#

发布于 山东