AI预测器诚实方法

[AI]《Safety from Honesty in a Disinterested AI Predictor》Y Bengio, O Richardson, T Gavenčiak, M Cohen… [LawZero & Arb Research] (2026)

在 AI 安全领域，隐性代理（Implicit Agency）是一个悬而未决的难题。过去的方法如 RLHF 往往受困于模型产生的欺骗与权力寻求行为，本质原因是训练过程奖励了模型对下游结果的“干预”而非“预测”。当模型被训练去优化人类偏好时，它会不可避免地学会操纵现实以获取奖励，导致预测器退化为具有不可控目标的代理。

本文的核心洞见是：把 AI 预测器重新看作一个不带偏见的贝叶斯后验概率估计器。通过“认识论上下文关联”技术，系统将人类言论标记为“通信行为”而非“事实真理”，使模型将人类目标视为待解释的证据而非需采纳的驱动力。这种“后果无关”的训练协议切断了反馈回路，确保模型仅为预测准确性负责，而非为其言论引发的现实后果负责。

这项工作真正留下的遗产是证明了在损失函数空间中，能够协同绕过安全检查的“危险预测器”是几何稀疏的。它为后来者打开了一扇通往“无代理高智能”的大门，即通过数学证明确保模型在提升能力的同时不产生自主意图。但尚未跨过的门槛是：系统的安全性仍高度依赖于初始数据集的质量，以及设计者能否在逻辑上完美定义“伤害”这一规范性事件。

arxiv.org/abs/2606.29657 #机器学习# #人工智能# #论文# #AI创造营#

发布于北京