用模型评委团取代单一评委,以更好地评估大语言模型。#ai# 以往,人们常常使用单一的大模型(如GPT-4)作为评委来打分其他模型的输出。但作者认为这种做法有局限性,不仅成本高、速度慢,还会受到评判模型自身偏好的影响。作为替代,他们提出组建一个由多个不同类型小模型组成的"模型评委团"(Panel of L

用模型评委团取代单一评委,以更好地评估大语言模型。#ai#

以往,人们常常使用单一的大模型(如GPT-4)作为评委来打分其他模型的输出。

但作者认为这种做法有局限性,不仅成本高、速度慢,还会受到评判模型自身偏好的影响。

作为替代,他们提出组建一个由多个不同类型小模型组成的"模型评委团"(Panel of LLM Evaluators, 简称PoLL)。

通过让评委团的多个模型独立打分,再综合它们的评判结果,可以降低个别模型的偏差,得到更加客观公正的评估。

实验表明,在多个任务上,PoLL的评判结果与人类判断的相关性更高,同时成本却比单一大模型评委低7倍以上。这说明PoLL是一种很有前景的评估方案。

论文地址：http://t.cn/A6TFFrlT

发布于北京