翁家翌分享启发式学习思路

Continual Learning 是目前 AI 研究领域最热门的方向！OpenAI 内部 post-training RL 基础设施的负责人翁家翌分享了一个反共识的思路「启发式学习」。当下“pre-training → RLHF → 大规模 RL”这条路径之外，还有一条被忽视的范式叫 Heuristic Learning（HL），HL 的核心思想是把策略的"更新对象"从神经网络权重换成代码本身，由 Coding Agent（如 Codex / Claude Code）持续维护和迭代。http://t.cn/AXiu7Rkf

如果说 HL 的前身是专家系统、规则系统，那么在 Coding Agent 没发展起来之前，这玩意的维护成本十分高昂。

今天 Coding Agent 把这件事从工程师认知带宽问题变成了 token cost 问题：一个 1000 条规则的系统让 Claude / Codex 维护，每次更新需要 100K context、几分钟、几美元。这个曲线变化太大了，以至于“维护手写规则系统”在经济学意义上从“不可行”变成“廉价”。而现在的约束是：

- 代码端：模块边界、测试覆盖率、状态可复现性
- Agent 端：模型能力、上下文长度、记忆质量、工具质量

也就是说，HL 系统能做多复杂的策略，本质上取决于当前 LLM 上下文窗口 × LLM 工程能力 × 测试基础设施成熟度这三个变量的乘积。这三个变量过去 24 个月都在指数级增长——上下文从 8K 到 1M，Coding 能力从写不通的 Python 到能独立完成复杂程序——所以 HL 的可行域在 2026 年才真正打开。

翁家翌把这件事类比为“工业革命前的纺纱”——技术一直存在，缺的是产能基础设施。Dario Amodei 在最近的访谈里说“软件本质上会免费”！当这个成立时，我们可以靠 Agent 无尽的 Coding 能力来解决所有可以验证的事情✨

发布于加拿大