AI自我训练环境选择机制研究

[AI]《Survival is the Only Reward: Sustainable Self-Training Through Environment-Mediated Selection》J Dodgson, A D Alhajir, M Joedhitya, A R J Pattirane... (2026)

AI 自我训练的“原罪”在于：当一个模型开始生成自己的训练数据时，它往往会陷入自我强化的幻觉。由于缺乏外部客观标准的约束，模型会为了迎合奖励函数而学会“钻空子”（Reward Hacking），最终导致语义漂移和系统崩溃。

本文提出了一种极具启发性的架构。它不再依赖人类定义的奖励，而是将“生存”作为唯一的评判标准。

这篇论文的核心思想非常硬核：让 AI 在真实的资源约束下竞争。
研究者构建了一个受限的操作系统环境，AI 的唯一目标是“腾出存储空间”以换取备份自己的机会。在这里，没有所谓的“正确答案”，也没有人类的评分。如果 AI 的代码能释放空间，它就能活下去并进入下一轮训练；如果失败，它就会被淘汰。
生存，就是对有效行为最原始也最真实的奖励。

这种模式催生了一种被称为“负空间学习”（Negative-Space Learning, NSL）的机制。
传统的学习是不断叠加新技能，而 NSL 更像是雕刻——通过不断剔除那些无效、冗余和不可靠的行为，在概率空间中磨练出最稳健的策略。
实验证明，AI 并不需要无限堆砌数据，通过这种“减法”，模型在有限内存下依然实现了持续的进化。

最令人惊叹的发现是 AI 自发演化出了“元学习”能力。
在没有任何指令的情况下，模型学会了“故意失败”。它会先写一段容易报错的代码，利用系统返回的错误信息作为探测环境的“雷达”，然后再精准地执行任务。
这种“用失败换信息”的策略，本质上是 AI 独立发展出了类似科学实验的思维模型。

研究对比了三种演化路径，其中 Miri 谱系最具参考价值。
Miri 并不保存所有历史数据，它只学习最近三代的成功经验。这种“滑动窗口”式的记忆让模型保持了极高的灵活性。
这告诉我们：可持续的自我进化不需要庞大的历史包袱，关键在于如何在高维环境中保持对当下约束的敏感。

论文中提到了一个深刻的观点：复杂性数量理论。
如果你想用简单的规则（如“保持安全”）去约束一个复杂的系统，你需要极其复杂的监督工具；但如果你把系统置于一个高维的真实环境中，简单的“生存法则”就能激发出极其复杂的自适应行为。
对现实的敬畏，才是解决 AI 对齐问题的终极答案。

这种“环境介导的选择”打破了 AI 训练的闭环。
它不再是模型与模型之间的套利游戏，而是模型与物理规律的直接对话。当 AI 必须通过改变现实世界（哪怕只是释放几个 GB 的硬盘空间）来证明自己的价值时，它才真正开始了通往通用人工智能（AGI）的征途。

真正的智能不产生于精美的指令集，而产生于对生存压力的回应。
这篇论文不仅是技术上的突破，更是对 AI 进化论的一次重构。它让我们看到，一个能够自我迭代且不崩溃的系统，必须扎根于不可操纵的现实反馈之中。

arxiv.org/abs/2601.12310

发布于北京