LLM判官不可靠_新浪新闻

[CL]《The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation》A Yagubyan (2026)

在LLM评测中，判官是否稳定仍未被量化。重复同题评审会改判，且常在分数几乎相同、却被迫给出胜负时放大噪声，因评估流程默认把一次判断当成定论。

本文把“判定”拆成配对选择、逐项打分、同判重复和跨判一致四层。50次重复试验显示：多数投票能收敛，但首位偏好、提示词改写和温度设置都会改写结果。

这项工作留下的遗产是把LLM评审从“看似客观”拉回“可测噪声”。它为后来者打开的新门是用多次投票、随机顺序和不确定性报告做评估；但尚未跨过的门槛是跨供应商复现。

arxiv.org/abs/2606.13685 #机器学习# #人工智能# #论文# #AI创造营#