[LG]《Reported Confidence in LLMs Tracks Commitment More Than Correctness》D Kumaran [Google DeepMind] (2026)
在评估大语言模型可靠性时,开发者通常依赖模型自我报告的言语置信度(Verbal Confidence)。然而,过去的方法受困于置信度与实际准确率之间的频繁脱节,本质原因是人们误将置信度视为对“正确概率”的客观估计,而忽略了模型内部可能存在一套独立于真理的行为控制逻辑。
本文的核心洞见是:将言语置信度重新看作一种“承诺就绪(Commit-readiness)”的内部信号。通过两阶段实验发现,言语置信度预测模型“是否敢于把答案提交给用户”的能力远强于其预测“答案是否正确”的能力。这一关键操作——将“言语报告”与“提交决策”解耦,并与底层 token 概率对比——揭示了言语置信度在神经元表征上与客观证据是正交的,它更像是一种行为导向的自我辩护。
这项工作真正留下的遗产是界定了 LLM 内省机制的非对称性:Token 概率锚定证据,言语置信度锚定行为。它为后来者打开的新门是开发更精准的“行为干预型”对齐算法,但尚未跨过的门槛是如何在不削弱模型决策果断性的前提下,强行将这套“行为信号”重映射回客观真理坐标系上。
arxiv.org/abs/2606.29490 #机器学习# #人工智能# #论文# #AI创造营#
发布于 北京
