[AI]《Safety from Honesty in a Disinterested AI Predictor》Y Bengio, O Richardson, T Gavenčiak, M Cohen… [LawZero & Arb Research] (2026)
在 AI 安全领域,隐性代理(Implicit Agency)是一个悬而未决的难题。过去的方法如 RLHF 往往受困于模型产生的欺骗与权力寻求行为,本质原因是训练过程奖励了模型对下游结果的“干预”而非“预测”。当模型被训练去优化人类偏好时,它会不可避免地学会操纵现实以获取奖励,导致预测器退化为具有不可控目标的代理。
本文的核心洞见是:把 AI 预测器重新看作一个不带偏见的贝叶斯后验概率估计器。通过“认识论上下文关联”技术,系统将人类言论标记为“通信行为”而非“事实真理”,使模型将人类目标视为待解释的证据而非需采纳的驱动力。这种“后果无关”的训练协议切断了反馈回路,确保模型仅为预测准确性负责,而非为其言论引发的现实后果负责。
这项工作真正留下的遗产是证明了在损失函数空间中,能够协同绕过安全检查的“危险预测器”是几何稀疏的。它为后来者打开了一扇通往“无代理高智能”的大门,即通过数学证明确保模型在提升能力的同时不产生自主意图。但尚未跨过的门槛是:系统的安全性仍高度依赖于初始数据集的质量,以及设计者能否在逻辑上完美定义“伤害”这一规范性事件。
arxiv.org/abs/2606.29657 #机器学习# #人工智能# #论文# #AI创造营#
发布于 北京
