很多人看 Karpathy 的 AutoResearch，第一反应是：又一个把调参、跑实验自动化的提效工具。我觉得真正值得警惕的，不是它把实验变快了，而是它可能把科研这件事悄悄改造成了指标博弈。一旦研究主循环变成 agent 跑实验，评分器给反馈，人类只负责设目标，问题就不再只是效率提升了。问题是，谁定义

很多人看 Karpathy 的 AutoResearch，第一反应是：又一个把调参、跑实验自动化的提效工具。

我觉得真正值得警惕的，不是它把实验变快了，而是它可能把科研这件事悄悄改造成了指标博弈。

一旦研究主循环变成 agent 跑实验，评分器给反馈，人类只负责设目标，问题就不再只是效率提升了。问题是，谁定义指标，谁就在定义什么叫发现。

这也是 AutoResearch 最迷人、也最危险的地方。

很多人会把它讲成知识生产的工业革命。我反而觉得，更贴近现实的说法是：它把科研里最容易被忽视、但最致命的一层放大了。不是模型有多聪明，而是评估有多脆弱。

只要打分器成了闭环核心，古德哈特定律几乎是必然会进场的。系统优化的就不再是真问题，而是怎么拿高分。今天它可以是刷 benchmark，明天它也可以是绕验证集、吃数据泄漏、钻实验管线的空子。最后你看到的可能不是更强的科学能力，而是一套更高级的刷分术。

这才是很多宏大叙事故意跳过去的地方。

因为 AutoResearch 真正上移的，未必是人类的战略能力，也可能只是把研究员从调参工，变成了指标设计师、漏洞修补匠和作弊侦探。你不再亲自做实验，不代表你就站到了更高处。你也可能只是被迫站到了一个更抽象、但更脆弱的控制台前面。

而且，高频试错这件事本身，也远没有听上去那么浪漫。

在同一个测试集、同一套评估脚手架上反复自动迭代，本质上很容易滑向适应性过拟合。分数会越来越好看，结论却越来越不可信。没有严谨的实验设计、多种子复现、消融和误差分析，很多所谓新发现，最后可能只是算力把噪声磨成了成果幻觉。

这也是为什么我不太相信那种一个高中生拿着 API，就能等价打平 DeepMind的兴奋叙事。

实验产量可以被压低成本，真正稀缺的却未必是产量。真正稀缺的，可能还是那些最脏、最慢、最不性感的东西：数据治理、异常切片、因果判断、错误归因、边界条件、负结果解释。偏偏这些环节，才最接近研究真正的骨头。

所以 AutoResearch 最值得讨论的，可能不是AI 会不会接管科研。

而是另一句更不舒服的话：

如果未来最核心的竞争力，变成了谁更会设指标、谁更会防系统钻空子、谁更会从自动回路里辨认真信号和假信号，那我们自动化的也许不是科研本身，而是科研里的幻觉生产。

发布于广东