Continual Learning 是目前 AI 研究领域最热门的方向!OpenAI 内部 post-training RL 基础设施的负责人翁家翌分享了一个反共识的思路「启发式学习」。当下“pre-training → RLHF → 大规模 RL”这条路径之外,还有一条被忽视的范式叫 Heuristic Learning(HL),HL 的核心思想是把策略的"更新对象"从神经网络权重换成代码本身,由 Coding Agent(如 Codex / Claude Code)持续维护和迭代。http://t.cn/AXiu7Rkf
如果说 HL 的前身是专家系统、规则系统,那么在 Coding Agent 没发展起来之前,这玩意的维护成本十分高昂。
今天 Coding Agent 把这件事从工程师认知带宽问题变成了 token cost 问题:一个 1000 条规则的系统让 Claude / Codex 维护,每次更新需要 100K context、几分钟、几美元。这个曲线变化太大了,以至于“维护手写规则系统”在经济学意义上从“不可行”变成“廉价”。而现在的约束是:
- 代码端:模块边界、测试覆盖率、状态可复现性
- Agent 端:模型能力、上下文长度、记忆质量、工具质量
也就是说,HL 系统能做多复杂的策略,本质上取决于当前 LLM 上下文窗口 × LLM 工程能力 × 测试基础设施成熟度这三个变量的乘积。这三个变量过去 24 个月都在指数级增长——上下文从 8K 到 1M,Coding 能力从写不通的 Python 到能独立完成复杂程序——所以 HL 的可行域在 2026 年才真正打开。
翁家翌把这件事类比为“工业革命前的纺纱”——技术一直存在,缺的是产能基础设施。Dario Amodei 在最近的访谈里说“软件本质上会免费”!当这个成立时,我们可以靠 Agent 无尽的 Coding 能力来解决所有可以验证的事情✨
