最近有一条视频在 AI 圈里传得挺广的,斯坦福博士生 Zitong Yang完成了他的博士论文答辩,课题是「持续自我改进式 AI」,答辩一结束他就把视频放出来了。
我花了将近两个小时把这场答辩从头看到尾,有几个观点听起来挺刺耳的,但越想越觉得他说得有道理。
这位博士来自 Thinking Machine Lab,他的答辩委员会阵容也相当豪华——主席是斯坦福电气工程与计算机科学教授 Stephen Boyd,委员里有 Percy Liang、Emmanuel Candès,还有刚刚从 Meta 跳槽到 OpenAI 的庞若鸣。
视频发出来之后,前 OpenAI CTO、现 Thinking Machine Lab CEO Mira Murati,以及 PyTorch 之父 Soumith Chintala 都点了赞。
这场答辩的核心问题只有一个:
我们能不能造出一个「一旦被创造出来,就能自主持续地改进自己,而且改进效果比人类帮它改进还要好」的 AI 系统?
1️⃣
Zitong 在答辩一开始就点出了现在大模型面临的三个硬伤。
第一个是「训练完就冻住了」。
你跟 ChatGPT 或 Claude 聊天,聊到一定程度它就开始压缩上下文,之前说过的事它会慢慢忘掉。
但人类睡一觉之后,还能隐约记得昨天聊了什么。
这不是模型不够聪明,而是它的权重在训练结束之后就固定了,没有机制让它真正「记住」新东西。
第二个是「人类数据快用完了」。
他引用了 Epoch AI 的预测:前沿大模型消耗的训练数据量,正在迅速逼近互联网上所有公开文本的总量。
就算去买私有数据,也只是在延缓这个问题,本质上人类产出的数据是有限的。
第三个是「算法发现太依赖人力了」。
现在 AI 研究的流程是:人类想出一个思路,写代码,跑实验,发论文,然后别人在此基础上继续。
这个循环极其消耗人力,而且我们发现的算法只是所有可能算法里的一个很小的子集。
这三个问题加在一起,就是为什么他要研究「持续自我改进式 AI」。
2️⃣
针对第一个问题,他提出了「合成持续训练」的方案,核心思路是用合成数据来弥补真实数据的稀疏性。
他用了一个很好的比喻来解释为什么需要合成数据:模型对线性代数的掌握程度非常深,因为互联网上有无数教科书、讲义、习题讨论和代码实现;
但如果你问它一个刚发布的新代码库里某两个模块之间的关系,它可能连问题在说什么都搞不清楚。
原因就是这个新代码库在互联网上几乎没有任何「多角度表征」。
他们的解决方案叫 EntiGraph,也就是「实体图合成数据生成」。
做法是先让模型从源文档里提取核心实体,然后随机抽取实体的子集,让模型描述这些实体之间的关系。
每次换不同的实体组合,模型输出的内容就会有很大差异,这样就能生成极其多样化的合成训练数据。
实验结果挺有说服力的。
他们用了一个包含 265 本专业书籍、约 180 万 token 的数据集,这些内容是模型从未见过的。
用 EntiGraph 生成合成数据之后,模型在闭卷问答上的准确率从 39% 提升到了 56%,而且随着生成的合成数据越来越多,准确率还在持续上升,斜率比直接重写文档的方法好得多。
3️⃣
他做的不只是「后训练」层面的改进,而是真正触及了预训练本身。
他的出发点是一个观察:现在的预训练只利用了单个文档内部的结构,但文档和文档之间其实存在大量潜在关联。
比如《哈利·波特》和它的电影剧本之间的关联,比如《Attention is All You Need》这篇论文和 GPT-2 代码库之间的关联——论文里写了「dot-product attention」,代码里第 91 行就实现了点积注意力机制,这种跨文档的对应关系,传统预训练完全没有利用到。
他们的方案叫「合成引导预训练」(SBPT),三步走:先用固定数据从头预训练一个模型,然后把它微调成一个合成数据生成器,最后用真实数据加合成数据混合重新预训练。
关键约束是不引入任何新的外部数据,也控制预训练阶段的计算量,确保对比是公平的。
结果是,在三种不同的模型规模和训练量设置下,SBPT 相比基准方法都实现了约 30% 的问答准确率提升,而且这个提升幅度和用无限真实数据训练的「Oracle」基准非常接近。
更有趣的一个发现是:随着模型规模从 3B 扩展到 6B,合成数据里的事实错误率显著下降——这说明更大的模型不只是更聪明,它生成的训练数据质量也更高,形成了一种良性循环。
4️⃣
最后一部分是「AI 设计 AI」,也是最接近科幻但又最脚踏实地的部分。
他构建了一个「研究环境」的抽象框架:给模型一个代码库作为上下文,告诉它研究问题是什么;再给它一个价值函数,输入一个想法,输出一个分数。
模型在这个环境里自主提出算法思路,生成代码差异,在沙盒里跑实验,根据结果更新自己的「想法库」,然后通过演化搜索不断迭代。
他们测试了两个任务:一个是 GPT-2 预训练优化,一个是用 GRPO 算法做数学推理。
在数学推理任务上,初始准确率是 48%,经过 AI 自主搜索之后提升到了 69%,而斯坦福 CS336 课程排行榜上人类的最佳成绩是 68%。
他也很坦诚地说,AI 现在胜过人类的方式主要还是靠「量」——人类研究员上周可能跑了 13 个实验,AI 跑了 30,000 个。构思质量上人类依然更强,但 AI 的执行力和耐力是人类根本比不了的。
我们对 AI 能力边界的想象,可能一直都太保守了。
Zitong 在结语里用了一个让我印象很深的类比。
爱因斯坦写下广义相对论场方程的那一刻,那个方程就已经编码了「宇宙在膨胀」这个真理——但爱因斯坦本人当时不相信,还专门修改了方程来维持「静态宇宙」的错误假设,直到哈勃的观测结果出来才被打脸。
方程比它的创造者更聪明,这不是悖论,这是事实。
他的意思是:「AI 能不能超越人类」这个问题,从一开始就问错了方向。我们创造的东西,没有任何理由天然地被限制在我们自身能力的子集里。
当然,从现在的实验结果到真正意义上的「超越人类」,中间还有很长的路要走。合成数据的质量问题、灾难性遗忘、算法搜索的效率瓶颈,这些都还没有完美的解法。
但方向已经很清晰了:让模型持续学习、让模型生成自己的训练信号、让模型自主发现算法——这三件事如果都做到了,AI 的进化就不再需要等待人类的下一次迭代。
