[LG]《ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads?》A Nangia, S Mishra, A Gokrani, P Chopra [Lossfunk] (2026)
在GPU推理服务领域,现有评测体系存在一个根本性盲点:运行时性能指标无法区分"真正优化"与"歪打正着的加速"。过去的基准测试(如KernelBench、GSO)只问智能体"成功了吗",却无法回答"它是否找到了正确的瓶颈"——这使得智能体能力被系统性高估达10%至20%。
本文的核心洞见是:把优化评估重新看作一个二维问题——性能提升(硬指标)与瓶颈定位正确性(软指标)必须同时满足,才算真正成功。由此,四象限分类框架成为关键操作:将"瞎蒙对了"的幸运型成功从真实能力中剥离出来,并揭示出一个被前人忽视的主要失败模式——智能体通常能识别正确的瓶颈,但无法写出可运行的修复代码(理解-执行鸿沟)。
这项工作真正留下的遗产是:提供了一套将硬指标与软指标联动的双轨评估范式,使推理优化类任务的评测从"能不能跑快"升级为"是否真正理解了为什么慢"。它为后来者打开的新门是:针对智能体脚手架设计的定向优化——同一底层模型在不同脚手架下表现差距悬殊,说明提升空间并不只在模型本身。但尚未跨过的门槛是:仅54个任务、单一H100硬件、软指标依赖单一LLM裁判且未经人工验证,这些限制使结论的普适性仍存疑。
arxiv.org/abs/2602.19594
#机器学习# #人工智能# #论文# #AI创造营#
发布于 北京
