斯坦福联合 MIT 发了一篇叫 Meta Harness 的论文,要让 AI 自己去改进包裹在大模型外面的那层代码。
先说下背景,现在不管是 Claude Code 还是 Cursor,真正让它们好用的不仅仅是模型本身,还有它们外面的那套驱动框架(智能体框架)。框架决定模型能调什么工具、存什么记忆、怎么检索信息。同一个模型,换套框架,相同的基准测试,性能能差 6 倍。但问题是,这些框架一直靠人手写、手调,效率很低。
Meta Harness 的思路是套一个外层循环。它用一个编码智能体(论文里用的是 Claude Code + Claude Opus 4.6)去读取之前所有版本框架的代码、评分、执行轨迹,自己决定看哪些、改哪些,然后生成新版本框架去测试,不断迭代。关键设计是不把海量信息压缩成一个摘要塞给模型,而是给它一个文件系统访问权限,让它像人类开发者一样用 grep、cat 自己去翻代码库,想看什么看什么。
结果相当能打。在文本分类任务上,Meta Harness 取得了平均 48 分,第二名 ACE 只有 40.9,而且它的 Token 消耗只有 ACE 的四分之一不到。更狠的是它的中位数得分比其他所有方法的最高分还高。拿它没见过的 9 个新数据集做泛化测试,依然夺魁。数学推理上,它自己摸索出的检索策略在 IMO 级别题目上平均提升了 4.7 个百分点,原理是它学会了复用之前题目的证明模式。Terminal Bench 2 上,它用 Opus 4.6 模型下拿到了 76.4 分,超过了几乎所有人工编写的框架,使用小模型 Haiku 4.5 上直接拿了第一。
这篇论文让人想到 Karpathy 前阵子爆火的 autoresearch,也是让 AI 自己跑实验、自己迭代。方向是一致的。再往大了说,这就是“苦涩教训”在框架工程领域的又一次验证。人写的规则迟早干不过系统自己摸索出来的规则,特斯拉自动驾驶从手写规则切到端到端网络是这个道理,Meta Harness 把框架工程从手动变成自动也是这个道理。
相信,接下来会有越来越多的软件组件走上这条路。模型由上一代模型训练,框架由上一代框架生成,代码由上一代代码迭代。Meta Harness 已经开源,论文和代码都放出来了,感兴趣的可以直接上手试
#MetaHarness##AI自我进化##智能体框架# http://t.cn/AXMlAcsd
发布于 上海
