[AI]《Meta-Harness: End-to-End Optimization of Model Harnesses》Y Lee, R Nair, Q Zhang, K Lee… [Stanford University] (2026)
LLM系统的性能取决于"harness"——决定模型看到什么信息的外层代码——但harness至今仍靠人工设计。现有文本优化器试图自动化这一过程,却因过度压缩反馈而失效:它们要么只依赖标量分数,要么仅看最近一次结果,要么将执行轨迹摘要化。harness的一个存储决策可能在数十步之后才显现影响,压缩反馈切断了追溯失败根源所需的信息链。
本文的核心洞见是:把harness优化器本身也看作一个harness。由此,将所有历史候选的源代码、评分和完整执行轨迹写入文件系统,让coding agent用grep和cat按需检索——而非塞入单一提示词——这一操作使优化器得以在三阶量级更大的诊断信息中自由溯因:它能跨候选比较,识别"提示词改动混淆了结构修复效果"这类因果混淆,而非仅知道"这次回退了"。
这项工作真正留下的遗产是:用文件系统替代压缩摘要,将"选择性访问完整历史"确立为自动化工程搜索的核心基础设施原语。它为后来者打开的新门是:随着coding agent能力增强,搜索质量将自动提升,无需重新设计外层循环。但尚未跨过的门槛是:整套流程依赖单一强力proposer(Claude Code),不同proposer下的迁移性尚未得到系统验证。
arxiv.org/abs/2603.28052
#机器学习# #人工智能# #论文# #AI创造营#
发布于 北京
