爱可可-爱生活
26-06-26 05:42 微博认证:AI博主 2025微博新锐新知博主

[LG]《Neural Scaling Universality: If Exponents Are Fixed, Time to Understand Coefficients》Y Liu, J Gore [MIT] (2026)

在大型语言模型领域,缩放法则(Scaling Laws)的起源一直被视为难以解释的经验观测。过去的方法受困于对数据统计特性的过度依赖,本质原因是误将模型性能视为数据特征的简单继承,忽略了神经网络架构本身存在的普适动力学约束。

本文的核心洞见是:把缩放法则看作由特定机制决定的普适类。由此,将损失函数演化拆解为Softmax非线性驱动的时间缩放、特征叠加导致的宽度缩放以及层间集成驱动的深度缩放,这一关键操作使问题的核心从预测指数转向了理解系数。

这项工作真正留下的遗产是将缩放法则的研究重心从寻找指数规律转向了系数工程化。它为后来者打开的新门是通过精确测量系数来设计计算最优的架构形状,但尚未跨过的门槛是界定该普适类的物理边界,以及探索是否存在指数更优的全新模型类。

arxiv.org/abs/2606.25008 #机器学习# #人工智能# #论文# #AI创造营#

发布于 北京