梯度下降是神经网络的灵魂,但它正面临一场关于推理的本质危机。François Chollet 提出一个深刻的观察:梯度下降擅长处理平滑的流形空间,而逻辑推理本质上是离散且组合的。
在推理的世界里,一步逻辑的差池就会导致结果全盘崩溃。这种悬崖式的地形让寻找最优解的梯度变得毫无意义。正如 Chollet 所言:任何东西都可以被表示,但并非任何东西都能被学习。
那么,那个悬崖之后的除非究竟指向何方?
首先,我们需要区分三个空间:离散的程序空间、连续的参数空间,以及平滑的代理目标空间。梯度下降之所以在某些离散任务上奏效,是因为它并非直接在逻辑悬崖上跳跃,而是在一个高维的、连续的参数系统里,寻找与进展相关的几何相关性。
这里存在一个关键的架构解耦:直觉与遍历。
梯度下降不应被要求直接完成逻辑跨越,它更像是一个盲目的徒步者。在严密的逻辑推理中,梯度在有效状态之间往往是断裂的。解决之道或许是让神经网络充当向导,利用学习到的直觉去修剪搜索空间,而真正的攀爬则交给离散搜索算法。
换句话说,我们不应该为了迎合优化器而强行磨平逻辑的悬崖,而应该利用梯度去建造梯子。
另一个视角是期望的平滑性。虽然单个神经元的开关是离散的,但在高维空间中,大量离散结构的期望值往往是平滑的。大模型或许正是通过这种方式,在离散的逻辑碎片中强行开辟出了一条可供攀爬的斜坡。
推理的本质可能不在于离散与连续的对立,而在于几何结构。有结构的地方就有曲率,有曲率的地方梯度才有指向。
AI 的进化正在经历一场范式转移:从试图将所有推理硬塞进权重里的摊销智能,转向利用权重引导动态搜索的流动智能。
我们正在从观察世界,转向通过构建梯子来跨越逻辑的深渊。
x.com/fchollet/status/2001403586396434848
