AI辅助复现社会科学研究

【工作论文：AI 辅助能否规模化复现实证研究？】

很久没上微博了，更别说贴自己的研究了。上次还是FDID。但我觉得下面这个研究是重要的。

最近两个礼拜，我和 Leo@SD下海的杨大夫昏天黑地地肝这篇文章，现在可以把第一版拿出来给大家分享了：http://t.cn/AXtrksm6

Leo在某书上还有个视频演示。

这篇文章讨论一个简单但现实的问题，用AI大规模复现社会科学研究，可行吗？

复制过别人研究的人都知道，即便有数据，要真正大规模重复别人的实证结果，成本也非常高。不同论文的数据格式、文件结构、软件环境都不一样，光是把材料整理到能跑通，就需要大量人工。

我们做的事情：构建一套 AI 辅助工作流，把这件事系统化、规模化、平行化。

基于 Claude Code Skills，我们设计了一个三层结构的 agent 系统：
> 第一层由 LLM 负责调度和错误解释；
> 第二层是写清楚输入–输出规则的结构化技能模块，是知识库；
> 第三层是用Python 编写的执行代码，可以调用R和Stata，所有统计计算都在这一层完成。

整条流水线从论文 PDF 解析、下载公开数据开始，一步步生成标准化的诊断报告。中间有七个agent分工协作。每次出现的错误模式都会被记录下来，沉淀为结构化知识，并在下一轮自动应用。人工只在版本之间介入，而不是临时救火。

我们把这个系统应用到2010-2025年前发表的 92 篇使用工具变量设计的论文，共 215 个 2SLS 回归。其中 67 篇（70 个回归）是我之前带团队手工复现过的，那次做了5年。现在，在材料可获取的前提下，从头跑通一篇论文通常只需要几分钟，而且可以并行。

大家可以比较一下新结果和发表的旧结果。规模扩大之后，我们依然看到与之前研究一致的经验发现：在观察性设计中，2SLS 的估计幅度通常大于 OLS，而且 2SLS–OLS 比率与第一阶段强度呈负相关。

为什么能做到 100% 端到端执行成功？因为我们目前用的样本比较“干净”：2/3此前已经验证可复现；另外1/3发表于 2023 年之后，期刊已要求完整复现材料。这是为了验证系统，之后再铺开。

简单说，同样的目标和方法，三倍规模（70 vs 215），手工搓用了5年，现在用几天完成，包括构建管线和写初稿。

这是个激动人心的时代啊！

发布于美国