ISO-Bench评估代码优化效果

[LG]《ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads?》A Nangia, S Mishra, A Gokrani, P Chopra [Lossfunk] (2026)

在GPU推理服务领域，现有评测体系存在一个根本性盲点：运行时性能指标无法区分"真正优化"与"歪打正着的加速"。过去的基准测试（如KernelBench、GSO）只问智能体"成功了吗"，却无法回答"它是否找到了正确的瓶颈"——这使得智能体能力被系统性高估达10%至20%。

本文的核心洞见是：把优化评估重新看作一个二维问题——性能提升（硬指标）与瓶颈定位正确性（软指标）必须同时满足，才算真正成功。由此，四象限分类框架成为关键操作：将"瞎蒙对了"的幸运型成功从真实能力中剥离出来，并揭示出一个被前人忽视的主要失败模式——智能体通常能识别正确的瓶颈，但无法写出可运行的修复代码（理解-执行鸿沟）。

这项工作真正留下的遗产是：提供了一套将硬指标与软指标联动的双轨评估范式，使推理优化类任务的评测从"能不能跑快"升级为"是否真正理解了为什么慢"。它为后来者打开的新门是：针对智能体脚手架设计的定向优化——同一底层模型在不同脚手架下表现差距悬殊，说明提升空间并不只在模型本身。但尚未跨过的门槛是：仅54个任务、单一H100硬件、软指标依赖单一LLM裁判且未经人工验证，这些限制使结论的普适性仍存疑。

arxiv.org/abs/2602.19594

#机器学习# #人工智能# #论文# #AI创造营#

发布于北京