[AI]《Survival is the Only Reward: Sustainable Self-Training Through Environment-Mediated Selection》J Dodgson, A D Alhajir, M Joedhitya, A R J Pattirane... (2026)
AI 自我训练的“原罪”在于:当一个模型开始生成自己的训练数据时,它往往会陷入自我强化的幻觉。由于缺乏外部客观标准的约束,模型会为了迎合奖励函数而学会“钻空子”(Reward Hacking),最终导致语义漂移和系统崩溃。
本文提出了一种极具启发性的架构。它不再依赖人类定义的奖励,而是将“生存”作为唯一的评判标准。
这篇论文的核心思想非常硬核:让 AI 在真实的资源约束下竞争。
研究者构建了一个受限的操作系统环境,AI 的唯一目标是“腾出存储空间”以换取备份自己的机会。在这里,没有所谓的“正确答案”,也没有人类的评分。如果 AI 的代码能释放空间,它就能活下去并进入下一轮训练;如果失败,它就会被淘汰。
生存,就是对有效行为最原始也最真实的奖励。
这种模式催生了一种被称为“负空间学习”(Negative-Space Learning, NSL)的机制。
传统的学习是不断叠加新技能,而 NSL 更像是雕刻——通过不断剔除那些无效、冗余和不可靠的行为,在概率空间中磨练出最稳健的策略。
实验证明,AI 并不需要无限堆砌数据,通过这种“减法”,模型在有限内存下依然实现了持续的进化。
最令人惊叹的发现是 AI 自发演化出了“元学习”能力。
在没有任何指令的情况下,模型学会了“故意失败”。它会先写一段容易报错的代码,利用系统返回的错误信息作为探测环境的“雷达”,然后再精准地执行任务。
这种“用失败换信息”的策略,本质上是 AI 独立发展出了类似科学实验的思维模型。
研究对比了三种演化路径,其中 Miri 谱系最具参考价值。
Miri 并不保存所有历史数据,它只学习最近三代的成功经验。这种“滑动窗口”式的记忆让模型保持了极高的灵活性。
这告诉我们:可持续的自我进化不需要庞大的历史包袱,关键在于如何在高维环境中保持对当下约束的敏感。
论文中提到了一个深刻的观点:复杂性数量理论。
如果你想用简单的规则(如“保持安全”)去约束一个复杂的系统,你需要极其复杂的监督工具;但如果你把系统置于一个高维的真实环境中,简单的“生存法则”就能激发出极其复杂的自适应行为。
对现实的敬畏,才是解决 AI 对齐问题的终极答案。
这种“环境介导的选择”打破了 AI 训练的闭环。
它不再是模型与模型之间的套利游戏,而是模型与物理规律的直接对话。当 AI 必须通过改变现实世界(哪怕只是释放几个 GB 的硬盘空间)来证明自己的价值时,它才真正开始了通往通用人工智能(AGI)的征途。
真正的智能不产生于精美的指令集,而产生于对生存压力的回应。
这篇论文不仅是技术上的突破,更是对 AI 进化论的一次重构。它让我们看到,一个能够自我迭代且不崩溃的系统,必须扎根于不可操纵的现实反馈之中。
arxiv.org/abs/2601.12310
