言语置信度反映承诺

[LG]《Reported Confidence in LLMs Tracks Commitment More Than Correctness》D Kumaran [Google DeepMind] (2026)

在评估大语言模型可靠性时，开发者通常依赖模型自我报告的言语置信度（Verbal Confidence）。然而，过去的方法受困于置信度与实际准确率之间的频繁脱节，本质原因是人们误将置信度视为对“正确概率”的客观估计，而忽略了模型内部可能存在一套独立于真理的行为控制逻辑。

本文的核心洞见是：将言语置信度重新看作一种“承诺就绪（Commit-readiness）”的内部信号。通过两阶段实验发现，言语置信度预测模型“是否敢于把答案提交给用户”的能力远强于其预测“答案是否正确”的能力。这一关键操作——将“言语报告”与“提交决策”解耦，并与底层 token 概率对比——揭示了言语置信度在神经元表征上与客观证据是正交的，它更像是一种行为导向的自我辩护。

这项工作真正留下的遗产是界定了 LLM 内省机制的非对称性：Token 概率锚定证据，言语置信度锚定行为。它为后来者打开的新门是开发更精准的“行为干预型”对齐算法，但尚未跨过的门槛是如何在不削弱模型决策果断性的前提下，强行将这套“行为信号”重映射回客观真理坐标系上。

arxiv.org/abs/2606.29490 #机器学习# #人工智能# #论文# #AI创造营#

发布于北京