#模型时代# 马毅教授学术讲座:AI圈的“炼金术”该停了,揭示驱动智能的3大第一性原理
前几天,看到@毅马当闲 香港大学计算机与数据科学学院院长、前伯克利教授马毅分享的《探寻智能的本质》讲座(http://t.cn/A6spvxJG)。学术角度,我肯定理解不到精髓的,不过很有启发,冒昧做了一个中文版(及总结)。如有描述疏漏错误的地方,必然是我搞错了。
在一个几乎所有人都信奉“大力出奇迹”的时代,马毅教授判断:我们引以为傲的大模型,本质上还停留在“炼金术”阶段,虽然成果斐然,但缺乏科学的根基。
他认为,是时候停止盲目追逐SOTA(业界最佳水平),回归到驱动智能演化的第一性原理了。这篇笔记将为你完整拆解“白盒”AI理论体系,理解为什么说当今AI有“知识”而无“智能”,以及通往真正通用智能的清晰路径。
一、 戳破皇帝的新衣:为什么说当今AI只是“昂贵的炼金术”?
一个大胆的判断:过去十年,AI学术界很大程度上都在“追逐实践者的尾巴”,陷入了一种被动解释、缺乏引领的怪圈。
洞见1:从“理论引领”到“技巧崇拜”的怪圈
马毅教授指出,当今的AI研究范式是颠倒的。工业界通过海量试错发现一个能提升性能的“小技巧”(trick),比如某个新的归一化方法或网络连接方式,学术界便蜂拥而上,产出成千上万篇论文去解释它为何有效。这导致理论总是滞后于实践,我们更像是在为经验性的成功打补丁,而不是从根本上理解智能的运作规律。这种模式让他和他的团队感到必须停止,转而探索更本质的问题。
洞见2:黑箱模型的内在危险——滋生迷信与操纵
“我无法创造的,我就不理解”,马毅教授引用物理学家费曼的名言强调,对一个系统只知其然不知其所以然,是极其危险的。一个长期无法被解释的、且具备巨大影响力的黑箱,最终会滋生出迷信,甚至演变为权力和操纵的工具。当前关于“大模型已具备意识”等耸人听闻的言论,正是源于这种对黑箱内部机制的无知和恐惧。
洞见3:问题的根源——我们问错了问题
我们一直在问“下一个SOTA架构是什么?”,或者“如何让模型再提升两个点?”,而真正应该问的是:智能的终极目标是什么?学习的最小假设是什么?我们能否从第一性原理出发,像物理学家推导定律一样,直接“演绎”出最优的网络架构? 只有回归这些根本问题,AI才能从一门经验性的“炼金术”转变为一门真正的科学。
二、 回归第一性原理:智能的唯一目标就是“对抗熵增”
马毅教授提出了一个宏大的世界观:智能是生命对抗宇宙熵增(即万物趋于混乱和无序)的核心机制。它通过不断创造结构、发现规律,让世界变得更“可预测”。基于此,他构建了理解智能的三个第一性原理。
洞见1:学什么?—— 追求简约性 (Parsimony)
智能学习的唯一目标,是在高维、复杂的观测数据中,发现其内在的低维结构。这个世界之所以可预测,是因为所有有意义的数据(无论是物理轨迹还是自然图像)都并非随机分布,而是被约束在一些维度极低的“流形”上。这个“低维假设”是我们进行学习时唯一需要的前提,它解释了为什么我们可以进行补全、降噪和鲁棒识别等智能行为。
洞见2:怎么学?—— 核心是压缩 (Compression)
找到低维结构的方法,在数学上等价于对信息进行压缩,也就是降低数据分布的“熵”或“信息体积”。这个过程可以被直观地理解为:将混乱、分散的数据点,不断地向其所在区域中概率最高的“中心”挤压。当前火热的扩散模型(Diffusion Models)的生成过程,其本质就是一个迭代的降噪过程,而每一次降噪,都是在执行一次信息压缩,从无序中创造有序。
洞见3:为何是对的?—— 依赖自洽性 (Consistency)
我们如何确保学到的模型是正确的?答案是通过自洽性检验。自然界的智能体(比如大脑)无法像工程师一样直接对比“生成的预测”和“真实的世界”,它采用的是一个更巧妙的闭环机制,即预测编码:将外部信号编码成内部表示,再解码生成预测,然后将这个预测重新编码,最后在内部表示的层面上比较两次编码是否一致。只有自洽的内部模型,才能稳定地预测外部世界。
三、 拆解黑箱:Transformer注意力机制的“白盒”推导
马毅教授团队通过数学推导,证明了被认为“效果好但难以解释”的Transformer架构,特别是其自注意力机制,并非经验产物,而是可以从第一性原理中被精确推导出来的。
洞见1:经典信息论工具的失效与新标尺
一个关键的技术前提是,传统的熵、KL散度等工具无法衡量低维分布的信息量。马毅教授引入了香农的率失真理论(Rate-Distortion Theory),用一个生动的比喻解释了这个概念:衡量一个不规则袋子的容积,最好的办法是往里面装标准大小的“豆子”,看能装多少。这个“豆子”的数量,就是所谓的“编码率”,它为衡量复杂信息提供了一个可操作的标尺。
洞见2:MCR²——学习的“牛顿定律”
基于编码率,学习的目标函数被定义为最大编码率降低(Maximal Coding Rate Reduction, MCR²)。这个原则的通俗解释是:寻找一个数据表示,使得不同类别之间的“距离”尽可能远(全局 expansive),而每个类别内部的“体积”尽可能小(局部 compact)。这个清晰的优化目标,成为了推导一切的起点。
洞见3:注意力机制的诞生——从数学到代码
最关键的一步来了。当把MCR²这个优化目标应用到一个通用的高斯混合模型(一种可以近似任意复杂数据分布的数学工具)上,并对其进行梯度优化时,推导出的每一步迭代的数学形式,与多头自注意力机制的计算过程完全一致。这意味着,Transformer的架构,实际上是在执行一个最优的、迭代式的降噪和压缩算法。它的每一个模块,从Query-Key-Value的交互到Softmax的加权,都有明确的数学意义,不再是黑箱。
洞令4:从“设计”到“推导”的范式革命
这一“白盒”推导意味着,神经网络架构的设计,可以从依赖直觉和大规模试错的“艺术创作”,转变为基于数学原理的“科学推导”。基于这个框架,马毅教授团队已经能够系统性地设计出更简洁、更高效(例如,将注意力复杂度从二次方降为线性)、性能更强的网络,并彻底告别了“炼金术”式的研发模式。
四、 重新定义终局:知识 vs. 智能,以及如何科学地测试AI
在讲座的最后,马毅教授对“智能”本身提出了一个定义。
洞见1:知识是智能的积分,大模型有知识而无智能
这是全场最重要的论断之一:智能是一种能够自我纠错和完善知识的“机制”,而知识仅仅是这种机制运行后留下的“结果”。因此,知识是智能的积分,智能是知识的导数。在这个定义下,GPT-4虽然存储了海量知识,但因为它是一个静态的、无法自我演进的开环系统,所以它的智能为零。相反,一个新生儿虽然知识为空,但其大脑具备强大的闭环学习机制,因此拥有巨大的智能。
洞见2:当前AI仍停留在“动物智能”阶段
我们目前所实现的大部分AI能力,如模式识别、压缩、生成等,都属于马毅教授定义的“动物智能”范畴。而1956年达特茅斯会议真正想探索的,是抽象、逻辑、因果、假设检验等独属于人类的“人造智能”。实验表明,至今没有一个大模型能真正理解“自然数”这个最基础的抽象概念,这揭示了当前AI能力的根本局限。
洞见3:超越图灵测试——为智能设立三级科学认证
模糊的图灵测试已经过时,需要更严谨的标准来衡量不同层次的智能。马毅教授提出了一个三级测试框架:
维纳测试 (Wiener Test):检验自学习能力。考察系统是否具备闭环反馈、自主学习和持续改进的能力。
图灵测试 (Turing Test):检验理解能力。需要被严格化,以区分“模仿”与真正“理解”逻辑和抽象概念。
波普尔测试 (Popper Test):检验理论化能力。考察系统是否具备科学家的核心能力:提出可证伪的科学假说。
三大核心洞察Q&A
Q1:当前AI最大的问题是什么?为什么说GPT-4没有智能?
A: 最大的问题是混淆了“知识”与“智能”。智能是一种能够自我纠错和完善知识的机制,而知识只是这个机制运行的结果。GPT-4像一个巨大的图书馆,存储了海量的知识,但它本身是静态的,无法自主学习和演进,因此它的智能为零。相反,一个新生儿虽然没有知识,但她的大脑是一个强大的、闭环的自学习系统,所以拥有巨大的智能。
Q2:我们应该如何从“炼金术”走向“科学”,构建真正的智能?
A: 核心是回归第一性原理。智能的本质是对抗熵增,其三大支柱是:1)简约性:学习的目标是发现数据中的低维结构;2)压缩:学习的方法是通过迭代降噪来压缩信息;3)自洽性:通过闭环反馈来检验和修正模型。基于这些原理,我们可以从数学上直接推导出像Transformer这样的“白盒”网络架构,让AI的设计不再依赖猜测和试错。
Q3:通往通用人工智能(AGI)的路径是什么?我们该如何衡量进展?
A: 路径是从构建开环的知识系统转向构建闭环的、具备自洽性检验能力的智能系统。这意味着未来的AI必须具备自主学习和持续进化的能力。同时,我们需要超越模糊的图灵 (Turing Test),建立更科学的评测标准,如检验自学习能力的“维纳测试”和检验科学发现能力的“波普尔测试”,以真正衡量我们在通往高级智能道路上的实质性进展。
http://t.cn/A6sNBNze
发布于 上海
