斯坦福联合MIT发布Meta Harness论文

斯坦福联合 MIT 发了一篇叫 Meta Harness 的论文，要让 AI 自己去改进包裹在大模型外面的那层代码。

先说下背景，现在不管是 Claude Code 还是 Cursor，真正让它们好用的不仅仅是模型本身，还有它们外面的那套驱动框架（智能体框架）。框架决定模型能调什么工具、存什么记忆、怎么检索信息。同一个模型，换套框架，相同的基准测试，性能能差 6 倍。但问题是，这些框架一直靠人手写、手调，效率很低。

Meta Harness 的思路是套一个外层循环。它用一个编码智能体（论文里用的是 Claude Code + Claude Opus 4.6）去读取之前所有版本框架的代码、评分、执行轨迹，自己决定看哪些、改哪些，然后生成新版本框架去测试，不断迭代。关键设计是不把海量信息压缩成一个摘要塞给模型，而是给它一个文件系统访问权限，让它像人类开发者一样用 grep、cat 自己去翻代码库，想看什么看什么。

结果相当能打。在文本分类任务上，Meta Harness 取得了平均 48 分，第二名 ACE 只有 40.9，而且它的 Token 消耗只有 ACE 的四分之一不到。更狠的是它的中位数得分比其他所有方法的最高分还高。拿它没见过的 9 个新数据集做泛化测试，依然夺魁。数学推理上，它自己摸索出的检索策略在 IMO 级别题目上平均提升了 4.7 个百分点，原理是它学会了复用之前题目的证明模式。Terminal Bench 2 上，它用 Opus 4.6 模型下拿到了 76.4 分，超过了几乎所有人工编写的框架，使用小模型 Haiku 4.5 上直接拿了第一。

这篇论文让人想到 Karpathy 前阵子爆火的 autoresearch，也是让 AI 自己跑实验、自己迭代。方向是一致的。再往大了说，这就是“苦涩教训”在框架工程领域的又一次验证。人写的规则迟早干不过系统自己摸索出来的规则，特斯拉自动驾驶从手写规则切到端到端网络是这个道理，Meta Harness 把框架工程从手动变成自动也是这个道理。

相信，接下来会有越来越多的软件组件走上这条路。模型由上一代模型训练，框架由上一代框架生成，代码由上一代代码迭代。Meta Harness 已经开源，论文和代码都放出来了，感兴趣的可以直接上手试

#MetaHarness##AI自我进化##智能体框架# http://t.cn/AXMlAcsd

发布于上海