陶哲轩谈AI与数学:跳高冠军遇到了攀岩赛道
3月20日,澳大利亚华裔数学家陶哲轩(Terence Tao)做客Dwarkesh Podcast,用近90分钟回顾了他三年前对AI的预测,给出了大量一手实战数据,调子比社交媒体上的AI狂热冷静得多。
三年前的预测兑现了吗?
2023年陶哲轩为微软撰文时预测:"到2026年,AI将成为数学研究中可信赖的合著者。"他说自己对这个预测"相当满意",认为基本兑现——但"合著者"的职责边界是辅助而非替代。
他的论文现在包含更多代码、图表和文献综述,这些以前要花几小时的辅助工作现在几分钟完成。但要解决一道数学问题中最困难的核心部分,他仍然用纸和笔,AI在这个环节几乎没有帮上忙。
他甚至提到自己现在用AI自动调整LaTeX中括号的大小匹配——这个细节非常能说明AI在顶尖数学家工作流中的实际位置:优秀的排版助手和文献搜索引擎,不是思想伙伴。
一句话概括:AI让论文变得更丰富,但没有变得更深刻。
Erdős问题的真实数据:社交媒体只播成功案例
播客前两个月,Scientific American报道AI工具已帮助解决约100道Erdős问题(匈牙利数学家Paul Erdős一生提出的1100多个数学猜想)。陶哲轩自己维护着一个GitHub wiki追踪这些进展,给出的判断比外界叙事冷静得多。
截至播客发布时,AI辅助解决了大约50道Erdős问题。绝大多数的解法模式是:把一项不太知名的已有技术和文献中的另一个结果组合起来。这些题之前没被解决,主要是因为没有足够多的专家去认真尝试,不是因为它们抵抗了人类的一切努力。
曾经有大约一个月的窗口期,前沿模型可以直接"一击即中"解决一些Erdős问题。这个阶段已经结束。陶哲轩说他知道至少三个独立团队尝试让前沿模型同时攻击所有剩余问题,结果是只找到了一些小观察和已有文献中的解,没有新的纯AI证明。
关键数字:每次做系统性扫描,任意一道题的AI解题成功率约1-2%。成功看起来壮观,纯粹因为可以批量尝试、只展示赢面。社交媒体的选择性传播制造了AI在数学上势不可挡的错觉。
"跳高机器人"比喻:能跳2米,但不会攀岩
这是整期播客中画面感最强的一段。陶哲轩说:想象一个黑暗的山脉,有矮墙、中墙、高墙和悬崖峭壁。AI像一台弹跳机器人,能跳2米高,比任何人都高。放出去后,它会找到并翻越所有低矮的墙。
但它做不到的是:跳到一半抓住岩壁上的把手,在那里停住,把同伴拉上来,然后从半空中继续攀爬。AI缺乏累积式的局部进展能力——它要么一次成功,要么彻底失败,没有中间状态。
模型解出一道题后,它自身对数学的理解并没有因此进步;开一个新对话,之前的一切经验清零。上一轮的所有尝试不会变成这个模型自己的新能力,最多成为下一代模型训练数据的万分之一。
下一次模型能力大幅提升时,同样的扫荡会再来一轮,再收割一批更高的矮墙,然后再次停滞。
开普勒的教训:正确的理论早期经常输给精心打磨过的错误理论
陶哲轩用开普勒的故事做开场,映射AI做科学的一个核心矛盾。
哥白尼的日心说比托勒密的地心说更简洁,但精度更低——地心说经过上千年修补,预测行星位置的准确率远高于最初的日心说。直到开普勒用椭圆轨道替换圆形轨道,日心说的精度才反超。
这意味着:用预测准确率做AI强化学习的奖励信号,可能会系统性地惩罚真正的突破。一个方向正确但尚不成熟的理论,在早期指标上就是会输给精心打磨过的错误理论。
他还指出一个容易被忽视的模式:科学进步往往靠的是去掉一个挡路的假设,而非添加新理论。日心说被接受得如此缓慢,核心原因是亚里士多德物理学中"物体天然趋向静止"的假设——如果地球在动,人为什么不会被甩飞?直到牛顿运动定律取消了这条假设,日心说才在概念上说得通。达尔文也一样:删除"物种是静态的"这条隐含假设,自然选择理论才有容身之处。
验证结构决定了发现速度
播客中一个有趣的时间差问题:牛顿《原理》1687年,达尔文《物种起源》1859年,晚了近两个世纪。但概念上,自然选择比万有引力简单得多。达尔文的同时代人Thomas Huxley读完《物种起源》后说:"怎么这么蠢,竟然没有早点想到。"从没人对牛顿说过这话。
陶哲轩认为关键区别在于验证结构。牛顿可以用一组方程预测月球轨道周期,验证循环紧凑即时;达尔文的自然选择依赖累积性和回溯性的证据,没有人能设计实验在你面前演示进化。实际上古罗马诗人卢克莱修在公元前1世纪就提出过物种适应环境的想法,但两千年无人能推进,因为缺少可操作的验证手段。
启示:AI可能在验证循环紧凑的领域进展飞快,但在需要累积性证据的领域(生态学、进化生物学、社会科学)推进会慢得多。
AI把瓶颈从"想法生成"转移到了"验证"
陶哲轩说,AI把想法生成的成本打到接近零,就像互联网把通讯成本打到接近零。互联网带来了信息爆炸也带来了垃圾信息泛滥;AI把假说生成成本打到零,直接后果是科学界突然需要处理成千上万条未经验证的理论,而人类评审员的带宽已经被淹没。很多期刊已经报告AI投稿洪水般涌入,传统同行评审机制是为稀缺的人类创意设计的,面对批量生成的内容已经失守。
Dwarkesh追问:假设未来AI生成了百万篇论文,其中一篇包含类似香农"比特"概念那样横跨多学科的统一性突破,怎样才能从海量平庸中识别出来?
陶哲轩坦率回答:多数时候靠时间检验。脱离时间和语境,没有办法给任何一项科学成就打出客观分数。科学成就是否重要,取决于后续有没有人在它基础上做出新东西。这种评估可能永远无法被强化学习捕捉。
数学需要从"病例报告"进入"临床试验"
陶哲轩认为AI真正将颠覆数学的方向不是深度,是广度。
数学几乎是纯理论学科,长期缺少实验传统。数学家不会对"两种解题方法哪个更有效"做大规模对照实验,只凭直觉判断。AI让"对一千道题做A/B测试""对整个领域做地形扫描"成为可能。他打了个比方:数学研究目前还停留在"病例报告"阶段,每篇论文精雕细琢一两个问题;AI可以让数学进入"临床试验"阶段。
"大规模做数学这件事才刚起步,但这恰恰是AI将真正颠覆数学的方向。"
他还提到"演绎性过剩"的概念:仅凭射入地球的光线和已知物理定律,天文学家就推算出了恒星距离、宇宙年龄和膨胀速率。如果换一种视角看同样的数据,我们或许能推导出远超当前认知的结论。天文学是最早拥抱"从有限数据中榨取一切"的学科——很多量化对冲基金招聘时偏爱天文学PhD,正是因为这种从噪声中提取信号的训练。
偶然性、博客与给年轻人的建议
陶哲轩说自己在高等研究院待超过几个月后灵感会枯竭——没有干扰、没有随机事件的纯粹研究环境,反而让他更多地刷互联网。他认为一定程度的干扰为思维引入了必要的随机性。
他怀念研究生时代去图书馆找期刊的经历:你去查一篇论文,旁边那篇碰巧也很有趣。现在输入关键词精准获取你想要的东西,但再也遇不到意外的发现。现代社会在各个层面都越来越擅长优化效率,但过度优化可能恰恰挤掉了催生突破的随机性。
他写博客的起源是年轻时经常学会一个技巧然后六个月后忘了——"我记得自己曾经理解过,但再也无法重建那个论证了。"经历几次之后他决定把所有有趣的东西写下来。
给年轻数学家:高中生现在借助AI工具和Lean形式化语言就有可能对前沿数学做出真正贡献,不再需要先读完博士。传统教育在一段时间内仍然重要,但非传统路径会越来越多。"令人不安,也充满可能性。"
