微软亚洲研究院 25-08-07 17:57
微博认证:微软亚洲研究院官方微博

#科研上新# ACL 2025上新来啦![我来了]

作为自然语言处理领域全球顶级的学术盛会之一,ACL 2025 于近日在维也纳召开。来自微软亚洲研究院的多篇论文入选,我们通过两期“科研上新”为大家分享研究院入选 ACL 2025 的精选论文解读。本期将探讨模型在公平性、包容性、鲁棒性、评估公正性与伦理对齐等方面的议题,第1篇论文是《MMLU-CF:无污染的多任务语言理解基准》。

近年来,随着大语言模型(LLMs)的不断进步,如何准确评估其能力已经成为研究的热点问题。诸如大规模多任务语言理解基准 MMLU(Massive Multitask Language Understanding),在评估大语言模型中起到了重要的作用。然而,由于开放源代码和训练数据的多样性,现有基准测试难免存在数据污染的问题,影响了评估结果的可靠性。

为了提供更为公平、准确的评估,微软亚洲研究院推出了 MMLU-CF,它是基于公开数据源,经过去污染设计的大语言模型理解基准。数据集包含了20,000道题目,分为10,000道验证集题目和10,000道测试集题目,其中验证集开源,测试集闭源,涵盖健康、数学、物理、商业、化学、哲学、法律、工程等14个学科领域。研究员们发现已有模型在 MMLU 数据集上存在着不同程度的数据泄露问题,因此建立了一套机制,以防止未来在新构建的测试基准上发生泄露。

MMLU-CF 引入了三条去污染规则,并扩展了数据源,使得测试结果更加可靠:
规则1:改写问题,减少模型对已见数据的依赖;规则2:打乱选项,避免模型通过记忆选项顺序做出正确答案;规则3:随机替换选项,增加模型的推理难度。研究员们将数据集分为验证集和测试集,确保测试集保持闭源,避免数据泄漏引发的不公正结果。同时,验证集开源以促进透明度,便于独立验证。若模型未来在验证集和测试集上的评测结果存在差异,那么可能反映出验证集中潜在的数据泄露问题。通过识别和解决这些问题,可有效避免 MMLU-CF 数据集未来的泄露风险。

除此之外,当前的评估结果显示,不同模型在 MMLU-CF 上的测试结果普遍低于在 MMLU 上的表现,并且在 MMLU-CF 上的排名发生了显著的变化。譬如 OpenAI o1 在 MMLU-CF 测试集上的 5-shot 得分为80.3%,显著低于其在 MMLU 上取得的92.3%得分,表明了 MMLU-CF 基准的公平性和严格性。

MMLU-CF 为大语言模型的评估提供了一个更加公平、可靠的基准,不仅能帮助科研人员准确理解模型的能力,也为未来模型优化提供了宝贵的数据支持。

论文链接:http://t.cn/A6Fkezz2

发布于 日本