【神经网络的"顿悟时刻":为什么AI学习和人类如此相似】
2022年,研究人员在训练模型做简单数学题时发现了一个奇怪的现象:模型训练了上万轮,验证准确率一直停在50%,看起来毫无希望。然后在第12000轮,准确率突然跃升到99%。
这个现象被命名为"Grokking"(顿悟)。
传统机器学习的常识是:如果验证损失100轮没改善,就该停止训练。但Grokking告诉我们:再坚持10000轮,理解正在形成,只是你还看不见。
那些看似"无用"的训练轮次里,模型并没有停滞。它在做什么?
- 神经回路不断形成又消解
- 权重模式逐渐结晶
- 虚假关联被剪枝
- 真正的结构浮现
这像极了人类的顿悟:漫长的困惑,然后突然的明白。
触发Grokking的关键条件:权重衰减、数据稀缺(反直觉地,这迫使模型寻找真正的规律)、过参数化、足够的耐心、以及AdamW优化器。缺少这些,模型会永远停留在死记硬背的阶段。
这个发现正在改变我们对AI训练的理解。那些"多训练一会儿"的实验,本质上是在大规模诱导Grokking。RLHF训练、领域适配、推理模型的突破,背后都有它的影子。
更有趣的是推理阶段的应用:如果模型能在训练时顿悟,能否在推理时也诱导顿悟?延长思维链、多路径采样、验证循环——这些技术本质上是在教模型按需顿悟。
Grokking揭示了一个深刻的事实:理解不是线性的,而是跳跃式的。模型不会逐渐变聪明,它们会在漫长的平台期后突然"开窍"。
平台期之后是突破,耐心之后是洞见。
这或许是神经网络最像人类的地方。
x.com/godofprompt/status/2008458571928002948
发布于 北京
