西西弗斯流浪记 26-03-30 16:29

很多人看 Karpathy 的 AutoResearch,第一反应是:又一个把调参、跑实验自动化的提效工具。

我觉得真正值得警惕的,不是它把实验变快了,而是它可能把科研这件事悄悄改造成了指标博弈。

一旦研究主循环变成 agent 跑实验,评分器给反馈,人类只负责设目标,问题就不再只是效率提升了。问题是,谁定义指标,谁就在定义什么叫发现。

这也是 AutoResearch 最迷人、也最危险的地方。

很多人会把它讲成知识生产的工业革命。我反而觉得,更贴近现实的说法是:它把科研里最容易被忽视、但最致命的一层放大了。不是模型有多聪明,而是评估有多脆弱。

只要打分器成了闭环核心,古德哈特定律几乎是必然会进场的。系统优化的就不再是真问题,而是怎么拿高分。今天它可以是刷 benchmark,明天它也可以是绕验证集、吃数据泄漏、钻实验管线的空子。最后你看到的可能不是更强的科学能力,而是一套更高级的刷分术。

这才是很多宏大叙事故意跳过去的地方。

因为 AutoResearch 真正上移的,未必是人类的战略能力,也可能只是把研究员从调参工,变成了指标设计师、漏洞修补匠和作弊侦探。你不再亲自做实验,不代表你就站到了更高处。你也可能只是被迫站到了一个更抽象、但更脆弱的控制台前面。

而且,高频试错这件事本身,也远没有听上去那么浪漫。

在同一个测试集、同一套评估脚手架上反复自动迭代,本质上很容易滑向适应性过拟合。分数会越来越好看,结论却越来越不可信。没有严谨的实验设计、多种子复现、消融和误差分析,很多所谓新发现,最后可能只是算力把噪声磨成了成果幻觉。

这也是为什么我不太相信那种一个高中生拿着 API,就能等价打平 DeepMind的兴奋叙事。

实验产量可以被压低成本,真正稀缺的却未必是产量。真正稀缺的,可能还是那些最脏、最慢、最不性感的东西:数据治理、异常切片、因果判断、错误归因、边界条件、负结果解释。偏偏这些环节,才最接近研究真正的骨头。

所以 AutoResearch 最值得讨论的,可能不是AI 会不会接管科研。

而是另一句更不舒服的话:

如果未来最核心的竞争力,变成了谁更会设指标、谁更会防系统钻空子、谁更会从自动回路里辨认真信号和假信号,那我们自动化的也许不是科研本身,而是科研里的幻觉生产。

发布于 广东