爱可可-爱生活
26-06-16 05:46 微博认证:AI博主 2025微博新锐新知博主

[CL]《The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation》A Yagubyan (2026)

在LLM评测中,判官是否稳定仍未被量化。重复同题评审会改判,且常在分数几乎相同、却被迫给出胜负时放大噪声,因评估流程默认把一次判断当成定论。

本文把“判定”拆成配对选择、逐项打分、同判重复和跨判一致四层。50次重复试验显示:多数投票能收敛,但首位偏好、提示词改写和温度设置都会改写结果。

这项工作留下的遗产是把LLM评审从“看似客观”拉回“可测噪声”。它为后来者打开的新门是用多次投票、随机顺序和不确定性报告做评估;但尚未跨过的门槛是跨供应商复现。

arxiv.org/abs/2606.13685 #机器学习# #人工智能# #论文# #AI创造营#

发布于 北京