老徐快别打星际了 26-02-20 15:14

【工作论文:AI 辅助能否规模化复现实证研究?】

很久没上微博了,更别说贴自己的研究了。上次还是FDID。但我觉得下面这个研究是重要的。

最近两个礼拜,我和 Leo@SD下海的杨大夫 昏天黑地地肝这篇文章,现在可以把第一版拿出来给大家分享了:http://t.cn/AXtrksm6

Leo在某书上还有个视频演示。

这篇文章讨论一个简单但现实的问题,用AI大规模复现社会科学研究,可行吗?

复制过别人研究的人都知道,即便有数据,要真正大规模重复别人的实证结果,成本也非常高。不同论文的数据格式、文件结构、软件环境都不一样,光是把材料整理到能跑通,就需要大量人工。

我们做的事情:构建一套 AI 辅助工作流,把这件事系统化、规模化、平行化。

基于 Claude Code Skills,我们设计了一个三层结构的 agent 系统:
> 第一层由 LLM 负责调度和错误解释;
> 第二层是写清楚输入–输出规则的结构化技能模块,是知识库;
> 第三层是用Python 编写的执行代码,可以调用R和Stata,所有统计计算都在这一层完成。

整条流水线从论文 PDF 解析、下载公开数据开始,一步步生成标准化的诊断报告。中间有七个agent分工协作。每次出现的错误模式都会被记录下来,沉淀为结构化知识,并在下一轮自动应用。人工只在版本之间介入,而不是临时救火。

我们把这个系统应用到2010-2025年前发表的 92 篇使用工具变量设计的论文,共 215 个 2SLS 回归。其中 67 篇(70 个回归)是我之前带团队手工复现过的,那次做了5年。现在,在材料可获取的前提下,从头跑通一篇论文通常只需要几分钟,而且可以并行。

大家可以比较一下新结果和发表的旧结果。规模扩大之后,我们依然看到与之前研究一致的经验发现:在观察性设计中,2SLS 的估计幅度通常大于 OLS,而且 2SLS–OLS 比率与第一阶段强度呈负相关。

为什么能做到 100% 端到端执行成功?因为我们目前用的样本比较“干净”:2/3此前已经验证可复现;另外1/3发表于 2023 年之后,期刊已要求完整复现材料。这是为了验证系统,之后再铺开。

简单说,同样的目标和方法,三倍规模(70 vs 215),手工搓用了5年,现在用几天完成,包括构建管线和写初稿。

这是个激动人心的时代啊!

发布于 美国