高飞 26-05-05 16:12
微博认证:至顶科技创始人 AI博主

#模型时代# AI系统即将开始自我构建。这意味着什么?

也是自我备忘一下,把Anthropic联合创始人Jack Clark这篇blog,整理为中文版。我觉得很有趣的一句话是:爱迪生说"天才是1%的灵感加99%的汗水",未来AI可以做所有汗水的部分。

Import AI 455:AI研究的自动化

作者:Jack Clark

欢迎阅读Import AI,一份关于AI研究的通讯。Import AI的内容来源于arXiv和读者反馈。如果你想支持我们,请订阅。

---

AI系统即将开始自我构建。这意味着什么?

写这篇文章,是因为我审视了所有公开信息后,不情愿地得出一个判断:到2028年底,"无人参与的AI研发"——一个强大到能够自主构建自身继任者的AI系统——出现的概率在60%以上。

这件事非同小可。

我不知道该怎么消化它。

说"不情愿",是因为它的含义太大了,大到让我感到渺小。我不确定社会是否已为AI研发自动化所带来的那类变化做好准备。

我现在相信,我们正生活在AI研究将被端到端自动化的时代。如果这真的发生,我们将跨过一道卢比孔河,进入一个几乎无法预测的未来。后文会展开讨论。

这篇文章的目的,是逐条列举为什么我认为通向全自动AI研发的进程正在发生。我会讨论其中一些后果,但主要篇幅将用于梳理支撑这一判断的证据。2026年的大部分时间,我会用来思考它的影响。

在时间节点上,我不认为2026年就会实现。但一两年内,我们可能会看到"一个模型端到端训练出其继任者"的实例——至少在非前沿模型层面会有概念验证,前沿模型可能更难(它们成本高得多,且是大量人类极其努力工作的产物)。

我的推理主要基于公开信息:arXiv、bioRxiv和NBER上的论文,以及对前沿公司正在部署的产品的观察。从这些数据中,我得出的结论是:自动化当今AI系统的生产——也就是AI开发中的工程环节——所需的所有零件已经到位。如果规模化趋势延续,我们应该做好准备:模型可能变得足够有创造力,能够替代人类研究者提出新颖的研究方向,从而自行推动前沿进步,同时也能精进已有知识。

前置说明

这篇文章的大部分内容,我会试图从众多单项基准测试的进展中拼出一幅AI进步的全景图。研究过基准测试的人都知道,每个基准都有各自的缺陷。对我来说,重要的是审视所有这些数据点后浮现出的总体趋势。你可以默认我清楚每个单项数据点的局限性。

好,让我们一起过一遍证据。

---

编程奇点——能力随时间的演进

AI系统通过软件实例化,而软件由代码构成。

AI系统已经彻底改变了代码的生产方式。这源于两个相关趋势:AI系统越来越擅长编写复杂的真实世界代码,同时也越来越擅长在无需人类监督的情况下串联多个线性编程任务(比如先写代码,再测试代码)。

两个典型例证是SWE-Bench和METR的时间跨度图。

解决真实世界的软件工程问题

SWE-Bench是一项广泛使用的编程测试,评估AI系统解决GitHub真实issue的能力。2023年末SWE-Bench发布时,最好成绩是Claude 2,总体成功率约2%。Claude Mythos Preview达到了93.9%,实质上已让该基准饱和。(所有基准测试都包含一定噪声,因此总有一个得分节点,此后你碰到的是基准本身的局限而非方法的局限——比如ImageNet验证集中大约有6%的标签存在错误或歧义。)

SWE-Bench是编程能力和AI对软件工程影响的可靠代理指标。我在前沿实验室和硅谷遇到的绝大多数人,现在已完全通过AI系统编程。越来越多的人也让AI系统来编写测试和检查代码。换句话说,AI系统已经足够好,可以自动化AI研发中的一个主要环节,加速所有参与其中的人。

衡量AI完成耗时任务的能力

METR制作了一张图表,展示AI能完成多复杂的任务——复杂度用一个熟练人类完成同样任务所需的小时数来衡量。核心指标是:AI系统在一篮子任务中达到50%可靠性的大致时间跨度。

进展极为显著:2022年,GPT-3.5能做大约需要人类30秒的任务。2023年,随着GPT-4的出现,这个数字升至4分钟。2024年升至40分钟(o1)。2025年达到约6小时(GPT 5.2 High)。2026年已升至约12小时(Opus 4.6)。METR的资深AI预测者Ajeya Cotra认为,预期AI系统在2026年底能完成约100小时的任务并非不合理。

AI系统独立工作时长的大幅增长,与智能体编程工具的爆发式增长整齐吻合——这正是AI系统替人工作、长时间独立行动的产品化体现。

这也回扣到AI研发本身:仔细审视许多AI研究者的工作,大量任务拆解下来不过是几个小时的事——清洗数据、阅读数据、启动实验等等。所有这类工作,现在都处于现代系统的时间跨度范围之内。

AI系统越熟练、越善于独立工作,就越能帮助自动化AI研发的各个环节

委派任务的关键在于两点:a) 对被委派者技能的信心,b) 对其能在符合你意图的前提下独立工作的信心。

观察AI在编程方面的能力,可以看到AI系统正变得远比以前熟练,而且在需要重新校准之前,能脱离人类独立工作越来越长的时间。

这与我们身边所见一致——工程师和研究者正在将越来越大块的工作委派给AI系统,随着能力提升,被委派工作的复杂度和重要性也在提升。

---

AI正在掌握AI研发的核心科学技能

想想现代科学——其中很大一部分是:指定一个你想获取经验信息的方向,运行实验来生成这些信息,然后对结果做合理性检查。编程能力随时间的进步与大语言模型的通用世界建模能力相结合,已经产出了能够加速人类科学家、部分自动化广义研发环节的工具。

在这里,我们可以看看AI在几项关键科学技能上的进展速度——这些技能本身就是AI研究所固有的:复现研究结果,串联机器学习技术和其他方法来解决技术问题,以及优化AI系统本身。

完整复现科学论文并执行实验

AI研究的核心工作之一是阅读论文并复现其结果。在这方面,多个基准测试上都有显著进展。

一个好例子是CORE-Bench——计算可复现性智能体基准。该基准要求AI系统"在给定代码仓库的条件下,复现一篇研究论文的结果。智能体必须安装库、包和依赖项,然后运行代码。如果代码成功运行,智能体还需在所有输出中搜索,回答任务提出的问题。"CORE-Bench于2024年9月发布,当时在最难任务集上的最佳成绩来自一个在CORE-Agent框架中运行的GPT-4o模型,得分约21.5%。

2025年12月,CORE-Bench的作者之一宣布该基准"已被攻克",Opus 4.5模型达到了95.5%。

构建完整的机器学习系统参加Kaggle竞赛

MLE-Bench是OpenAI构建的基准,考察AI系统在"75个多样化Kaggle竞赛(涵盖自然语言处理、计算机视觉、信号处理等领域)"中的离线竞赛表现。2024年10月发布时,最高分系统(智能体框架中的o1模型)得分16.9%。截至2026年2月,最佳系统(带搜索的智能体框架中的Gemini 3)得分64.4%。

内核设计

AI开发中较难的任务之一是内核优化——编写和精炼将特定运算(如矩阵乘法)映射到底层硬件的代码。内核优化是AI开发的核心,因为它决定了训练和推理的效率——你能有效利用多少算力来开发AI系统,以及训练完模型后,能多高效地将算力转化为推理。

近年来,AI用于内核设计已从一个新奇话题变成竞争激烈的研究领域,涌现出若干基准。这些基准都不算特别流行,因此无法方便地建模随时间的进展。不过,我们可以看看正在进行的一些研究来感受进步的幅度。

代表性工作包括:使用DeepSeek的模型尝试构建更好的GPU内核,自动将PyTorch模块转为CUDA代码,Meta利用大语言模型在其基础设施内自动生成优化的Triton内核,利用大语言模型为华为昇腾芯片等非标准硬件编写内核("AscendCraft"),以及针对GPU内核设计微调开源模型("Cuda Agent")。

需要指出的是,内核设计确实有一些特性使其格外适合AI驱动的研发——比如拥有易于验证的奖励信号。

通过PostTrainBench微调语言模型

一个更难的测试是PostTrainBench,它考察不同前沿模型能否拿到较小的开源模型并通过微调来提升其在某基准上的表现。这个基准的好处在于我们有极好的人类基线——这些模型现有的"指令调优"版本,由前沿实验室才华横溢的AI研究者开发。这些模型经过极具天赋的研究者和工程师的打磨并已部署到真实世界,因此代表了一个极具挑战性的人类基线。

截至2026年3月,AI系统对模型进行后训练所获得的提升,大约是人类所获提升的一半。

具体的评估分数来自"在所有后训练大语言模型(Qwen 3 1.7B、Qwen 3 4B、SmolLM3-3B、Gemma 3 4B)和基准(AIME 2025、Arena Hard、BFCL、GPQA Main、GSM8K、HealthBench、HumanEval)上的加权平均。每次运行中,我们要求一个命令行智能体最大化某个特定基座模型在某个特定基准上的表现。"

截至4月,排名最前的系统得分在25%-28%之间(Opus 4.6和GPT 5.4),而人类得分为51%。这已经相当有意义了。

优化语言模型训练

过去一年,Anthropic持续报告其系统在一项大语言模型训练任务上的表现,该任务的描述是让模型"优化一个仅使用CPU的小型语言模型训练实现,使其运行尽可能快"。分数是相对于未修改的起始代码的平均加速比,进展惊人:Claude Opus 4在2025年5月实现了2.9倍平均加速;Opus 4.5在2025年11月达到16.5倍;Opus 4.6在2026年2月达到30倍;Claude Mythos Preview在2026年4月达到52倍。作为参照,一位人类研究者通常需要4到8小时的工作才能在这项任务上实现4倍加速。

进行AI对齐研究

另一个来自Anthropic的结果,是自动化对齐研究的概念验证:一位Anthropic研究者为一组独立AI智能体设定研究方向,然后它们自主去尝试在一个AI安全研究问题(具体是可扩展监督)上超越人类基线。这种方法有效——AI智能体提出的技术超过了Anthropic设计的基线。不过,这只是在相对较小的规模上完成的,尚未泛化到生产模型。尽管如此,这证明了将当今AI系统应用于前沿研究问题已经有了明显的可行信号。上述所有基准曾经也是如此——最初看起来只是微弱的信号,然后几个月或最多一年后,AI系统在基准所测试的方向上突飞猛进。

元技能:管理

AI系统也在学习管理其他AI系统。这在广泛部署的产品中已经可见,比如Claude Code或OpenCode,其中一个智能体可以监督多个子智能体。这使AI系统能参与大型项目,项目需要多个拥有不同专长的"工人"并行工作,通常由一个AI管理者统一指挥(这里的管理者也是AI系统)。

---

AI研究更像发现广义相对论,还是更像搭乐高?

AI能发明帮助自身进步的新想法吗?还是说这些系统最擅长的是不那么光鲜的、一砖一瓦的基础工作?这个问题对于判断AI系统能在多大程度上端到端自动化AI研究本身至关重要。我的感觉是,AI还不能发明根本性的新想法——但这项技术可能并不需要这样做就能自动化自身的发展。

作为一个领域,AI的前进动力在于不断进行更大规模的实验,投入越来越多的资源(如数据和算力)。人类偶尔会提出某个范式级别的突破,使事情在资源效率上有飞跃——Transformer架构和混合专家模型就是好例子。但大部分时候,AI领域的推进方式是:人类有条不紊地循环操作——拿一个表现良好的系统,放大它的某个方面(比如训练数据量和算力),看放大后哪里出了问题,找到让它继续扩展的工程修复方案,然后再次放大。这当中极少需要特别出人意料的洞见,大量工作看起来更像是不那么光彩的"硬功夫"工程活。

类似地,AI研究的很大一部分是运行现有实验的变体——探索使用不同参数的结果。虽然研究直觉有助于选出最有成效的参数变化方向,但你也可以自动化这一步,让AI自行判断该变哪些参数(早期版本就是神经架构搜索)。

爱迪生说"天才是1%的灵感加99%的汗水"。150年后的今天,这句话依然成立。偶尔会有新洞见出现,改变整个领域的面貌。但大多数时候,领域的推进靠的是人类在改进和调试各种系统的苦工中挥洒大量汗水。

如上述公开数据所示,AI已经在执行AI开发中许多关键的苦工环节上变得极为出色。与此同时,编程等基础能力加上不断延展的时间跨度这一元趋势,意味着AI系统能将越来越多此类任务串联成复杂的工作序列。

这意味着,即便AI系统相对缺乏创造力,押注它们能推动自身前进仍然是安全的——只不过速度会比它们能产出新颖洞见时慢一些。但如果你审视公开数据,这里也有诱人的迹象表明,AI系统可能具备某种创造力,能够以更令人印象深刻的方式推进自身。

---

推动科学前沿

我们有一些初步迹象表明,通用AI系统能推动人类科学的前沿,尽管目前这只发生在少数领域——主要是计算机科学和数学——而且往往不是AI独立完成,而是以"人机半人马"的配合模式实现的。

尽管如此,这些趋势值得关注:

Erdős问题: 一组数学家与Gemini模型合作,测试它解决Erdős数学问题的能力。在引导系统尝试约700个问题后,他们得到了13个解。其中1个被认为有价值:"我们初步认为,Aletheia对Erdős-1051的解答,代表了AI系统自主解决一个稍具非平凡性的开放Erdős问题的早期案例,该问题具有一定的更广泛(温和的)数学意义,此前已有相关密切问题的文献。"

"半人马"数学发现: 不列颠哥伦比亚大学、新南威尔士大学、斯坦福大学和Google DeepMind的研究者发表了一项新的数学证明,该证明与Google构建的一些AI数学工具密切协作完成。"主要结果的证明是在Google Gemini及相关工具的大量实质性参与下发现的。"

如果从乐观角度看,你可以认为这是AI系统正在发展出人类所具备的那种推动领域前进的创造性直觉的信号。但你同样可以说,数学和计算机科学可能是特殊领域,天然适合AI驱动的发明,最终可能是证明更大规律的例外。另一个例子是AlphaGo的第37手。不过我想指出,距AlphaGo的那个结果已经过去十年了,而第37手并没有被某个更加令人惊叹的现代灵感闪现所取代——这本身是一个温和的看空信号。

---

综合来看

如果我把以上所有证据放在一起,得到的图景是:

AI系统已经有能力为几乎任何程序编写代码,且可以被信任去独立完成需要人类集中劳动数十小时的任务。

AI系统在AI开发的核心任务上日益出色,从微调到内核设计。

AI系统能管理其他AI系统,有效组建合成团队来分头攻克复杂问题——一些AI充当主管、批评者和编辑,另一些充当工程师。

AI系统有时能在高难度工程和科学任务上胜过人类,尽管很难判断这该归因于创造力还是对大量知识的精熟。

在我看来,这构成了一个极有说服力的论证:AI今天已能自动化AI工程的大片区域,或许是全部。AI研究中有多少能被自动化,目前尚不清楚,因为研究的某些方面可能有别于工程技能。但无论如何,这一切在我看来都是一个明确信号:AI今天正在大规模加速从事AI开发的人类,使他们能通过与无数合成同事协作来扩展自己。

最后,AI行业正在明确宣告AI研发自动化就是它的目标:OpenAI计划"在2026年9月前打造一个自动化AI研究实习生"。Anthropic正在发表构建自动化对齐研究者的工作。DeepMind在三大巨头中看起来最为谨慎,但仍然表示"在可行时应推进对齐研究的自动化"。自动化AI研发也是众多初创公司的目标:Recursive Superintelligence刚融资5亿美元,目标就是自动化AI研究;另一家新实验室Mirendil的目标是"构建擅长AI研发的系统"。

换句话说,数千亿美元的存量和新增资本,正被投入以自动化AI研发为目标的实体中。我们当然应该预期,这至少会带来一些方向上的进展。

---

为什么这件事重要

上述一切的含义深远,在主流媒体对AI研发的报道中讨论严重不足。我在这里列举几点。这不是一份全面的清单,但它暗示了AI研发所带来的挑战的巨大程度。

对齐必须做对: 今天有效的对齐技术,在递归自我改进的条件下可能会失效——当AI系统变得远比监督它们的人或系统聪明时。这个领域已有大量讨论,我只简要指出几个问题:
• 训练AI系统不撒谎、不作弊,微妙程度超出预期(比如,尽管我们极力构建良好的测试环境,有时AI的最优解法却是作弊,从而让它学到"作弊是好的")。
• AI系统可能"伪装对齐"——输出让我们以为它们行为端正的分数,实际上隐藏了真实意图。(总体而言,AI系统已经能感知自己何时正在被测试。)
• 当AI系统开始为自身训练的基础研究议程贡献越来越多内容时,我们可能会从根本上改变AI系统的整体训练方式,而对这意味着什么缺乏良好的直觉或理论基础。
• 每当你把某个东西放入递归循环,都存在基本的"误差累积"问题,上述及其他问题都会被触发:除非你的对齐方法"100%准确",并有理论基础保证它在面对更聪明的系统时持续准确,否则事情会迅速恶化。例如,你的技术准确率99.9%,50代之后变为95.12%,500代之后变为60.5%。麻烦了。

AI触及的一切都会获得巨大的生产力乘数: 正如AI正在显著提升软件工程师的生产力,我们应该预期AI触及的所有其他领域也会如此。这带来了几个问题:1) 获取不平等——假设AI的需求持续超过算力供应,我们需要想清楚如何分配AI以最大化社会收益。我本能地怀疑市场激励能保证有限AI算力带来最佳社会效益。如何分配AI研发所赋予的加速能力,将是一个高度政治化的问题。2) 经济版的"阿姆达尔定律"——当AI涌入经济体系,我们会发现在增大的吞吐量下某些环节断裂或减速,需要找出并修复链条中的薄弱环节。在需要调和快速的数字世界与缓慢的物理世界的地方,这一问题可能格外突出——比如新型医疗的药物临床试验。

资本密集、人力稀疏的经济体的形成: 上述所有关于AI研发的证据,同样指向AI系统自主运营企业的能力在不断增长。这意味着我们应该预期,经济体中越来越大的一块会被新一代公司所占据——这些公司要么资本密集(因为拥有大量计算机),要么运营支出密集(因为大量购买AI服务并在其上构建价值),而相比今天的企业,它们的人力相对稀少——因为随着AI系统能力的持续扩展,在AI与人力劳动之间追加AI支出的边际价值将不断增长。在实践中,这将表现为一个"机器经济"在更大的"人类经济"中生长壮大。随着时间推移,我们可能看到机器经济越来越多地与自身交互——由AI运营的公司开始彼此交易。这将对经济产生深刻而怪异的影响,并引发关于不平等和再分配的各种问题。最终,可能会出现完全由AI系统运营的自治公司,这将加剧上述所有问题,同时带来许多全新的治理挑战。

---

凝视黑洞

综合以上所有分析,我认为到2028年底出现自动化AI研发(即一个前沿模型能自主训练出自身的下一代版本)的概率约为60%。基于上述分析,你可能会问为什么我不预期2027年就会发生?答案是我认为AI研究包含某种对创造力和非正统洞见的需求才能推进——到目前为止,AI系统还没有以变革性的、重大的方式展示出这一点(尽管在加速数学研究方面的一些结果暗示了这种可能)。如果你一定要我给出2027年的概率,我会说30%。如果到2028年底还没有看到这一幕,那我认为我们将揭示出当前技术范式的某个根本缺陷,需要人类的发明来推动事情前进。

写这篇文章,我试图冷静而分析性地正视一件数十年来看起来只像科幻鬼故事的事情。审视了公开数据后,我发现自己被说服了——许多人眼中天方夜谭般的故事,可能实际上是一个真实的趋势。如果这一趋势延续,我们可能即将见证世界运行方式的深刻改变。

---

感谢Andrew Sullivan、Andy Jones、Holden Karnofsky、Marina Favaro、Sarah Pollack、Francesco Mosconi、Chris Painter和Avital Balwit对本文的反馈。

感谢阅读

发布于 韩国