禁止跑测试成功率不变

To Run or Not to Run: Analyzing the Cost-Effectiveness of Code Execution in LLM-Based Program Repair

地址：arxiv.org/abs/2606.26978
“现在主流的 coding agent 修 bug 都遵循同一套循环：看代码 → 改一版 → 跑测试 → 根据结果再改。"跑测试"被当成天经地义的一步，几乎没人质疑它到底值不值。

把一段代码执行起来对我们人来说不花钱，但对 agent 来说是很贵的：要生成执行命令、解析一大堆测试日志，还得等编译和运行，token 和时间都在烧。所以我们做了个对照实验：把"允不允许 agent 执行代码"当成唯一变量，看看从"完全禁止"到"无限制"，表现上到底会差多少。

我们在 200 个 SWE-bench 的真实 bug 上，用 Claude Code 和 Codex 跑了 3000 次完整修复。结果是：在这类 agent 上，完全不让执行代码和无限制执行，修复成功率只差 1.25 个百分点，统计上并不显著。而 Claude Code 因为不跑测试，省下了 56%–62% 的 token 和 48%–54% 的时间。”

发布于山东