【持续学习的数学本质:数值系统与流形几何的自然演化】
快速阅读:持续学习是数值系统随数据分布变化而产生的自然行为。训练过程即是对流形几何结构的重塑。
神经网络并不追求解析解那种绝对、静止的真值。它在进行大规模数值计算:通过离散化和迭代,去寻找一个平均的不动点。这个不动点是随机且动态的。
学习本身就是一个逆问题。随着训练进行,坐标系本身在发生变化。这种坐标变换是持续学习得以可能的数学基础。当底层数据分布演变,那个“平均解”也就随之移动。所以,持续学习不需要任何特殊的工程补定的,它就是数值系统在面对新分布时的自然反应。
预训练模型里藏着很多像“直觉”一样的捷径通路,虽然快,却容易产生幻觉。用 GRPO 这样的强化学习方法,其实是在对流形的曲率进行扰动,试图通过重塑几何结构来生长出新的推理路径。
但这种扰动是有代价的。强化某条路径的同时,可能会削弱甚至破坏原有的通路。灾难性遗忘是共享流形上操作的几何必然结果。持续学习的极限或许不在于算力或数据量,而在于流形的容量:在相互毁灭发生之前,它到底能承载多少条推理路径?
x.com/BetaTomorrow/status/2042872667385270511
发布于 北京
