To Run or Not to Run: Analyzing the Cost-Effectiveness of Code Execution in LLM-Based Program Repair
地址:arxiv.org/abs/2606.26978
“现在主流的 coding agent 修 bug 都遵循同一套循环:看代码 → 改一版 → 跑测试 → 根据结果再改。"跑测试"被当成天经地义的一步,几乎没人质疑它到底值不值。
把一段代码执行起来对我们人来说不花钱,但对 agent 来说是很贵的:要生成执行命令、解析一大堆测试日志,还得等编译和运行,token 和时间都在烧。所以我们做了个对照实验:把"允不允许 agent 执行代码"当成唯一变量,看看从"完全禁止"到"无限制",表现上到底会差多少。
我们在 200 个 SWE-bench 的真实 bug 上,用 Claude Code 和 Codex 跑了 3000 次完整修复。结果是:在这类 agent 上,完全不让执行代码和无限制执行,修复成功率只差 1.25 个百分点,统计上并不显著。而 Claude Code 因为不跑测试,省下了 56%–62% 的 token 和 48%–54% 的时间。”
发布于 山东
