爱可可-爱生活 25-12-19 07:57
微博认证:AI博主 2025微博新锐新知博主

梯度下降是神经网络的灵魂,但它正面临一场关于推理的本质危机。François Chollet 提出一个深刻的观察:梯度下降擅长处理平滑的流形空间,而逻辑推理本质上是离散且组合的。

在推理的世界里,一步逻辑的差池就会导致结果全盘崩溃。这种悬崖式的地形让寻找最优解的梯度变得毫无意义。正如 Chollet 所言:任何东西都可以被表示,但并非任何东西都能被学习。

那么,那个悬崖之后的除非究竟指向何方?

首先,我们需要区分三个空间:离散的程序空间、连续的参数空间,以及平滑的代理目标空间。梯度下降之所以在某些离散任务上奏效,是因为它并非直接在逻辑悬崖上跳跃,而是在一个高维的、连续的参数系统里,寻找与进展相关的几何相关性。

这里存在一个关键的架构解耦:直觉与遍历。

梯度下降不应被要求直接完成逻辑跨越,它更像是一个盲目的徒步者。在严密的逻辑推理中,梯度在有效状态之间往往是断裂的。解决之道或许是让神经网络充当向导,利用学习到的直觉去修剪搜索空间,而真正的攀爬则交给离散搜索算法。

换句话说,我们不应该为了迎合优化器而强行磨平逻辑的悬崖,而应该利用梯度去建造梯子。

另一个视角是期望的平滑性。虽然单个神经元的开关是离散的,但在高维空间中,大量离散结构的期望值往往是平滑的。大模型或许正是通过这种方式,在离散的逻辑碎片中强行开辟出了一条可供攀爬的斜坡。

推理的本质可能不在于离散与连续的对立,而在于几何结构。有结构的地方就有曲率,有曲率的地方梯度才有指向。

AI 的进化正在经历一场范式转移:从试图将所有推理硬塞进权重里的摊销智能,转向利用权重引导动态搜索的流动智能。

我们正在从观察世界,转向通过构建梯子来跨越逻辑的深渊。

x.com/fchollet/status/2001403586396434848

发布于 北京