梯度下降面临本质危机

梯度下降是神经网络的灵魂，但它正面临一场关于推理的本质危机。François Chollet 提出一个深刻的观察：梯度下降擅长处理平滑的流形空间，而逻辑推理本质上是离散且组合的。

在推理的世界里，一步逻辑的差池就会导致结果全盘崩溃。这种悬崖式的地形让寻找最优解的梯度变得毫无意义。正如 Chollet 所言：任何东西都可以被表示，但并非任何东西都能被学习。

那么，那个悬崖之后的除非究竟指向何方？

首先，我们需要区分三个空间：离散的程序空间、连续的参数空间，以及平滑的代理目标空间。梯度下降之所以在某些离散任务上奏效，是因为它并非直接在逻辑悬崖上跳跃，而是在一个高维的、连续的参数系统里，寻找与进展相关的几何相关性。

这里存在一个关键的架构解耦：直觉与遍历。

梯度下降不应被要求直接完成逻辑跨越，它更像是一个盲目的徒步者。在严密的逻辑推理中，梯度在有效状态之间往往是断裂的。解决之道或许是让神经网络充当向导，利用学习到的直觉去修剪搜索空间，而真正的攀爬则交给离散搜索算法。

换句话说，我们不应该为了迎合优化器而强行磨平逻辑的悬崖，而应该利用梯度去建造梯子。

另一个视角是期望的平滑性。虽然单个神经元的开关是离散的，但在高维空间中，大量离散结构的期望值往往是平滑的。大模型或许正是通过这种方式，在离散的逻辑碎片中强行开辟出了一条可供攀爬的斜坡。

推理的本质可能不在于离散与连续的对立，而在于几何结构。有结构的地方就有曲率，有曲率的地方梯度才有指向。

AI 的进化正在经历一场范式转移：从试图将所有推理硬塞进权重里的摊销智能，转向利用权重引导动态搜索的流动智能。

我们正在从观察世界，转向通过构建梯子来跨越逻辑的深渊。

x.com/fchollet/status/2001403586396434848

发布于北京