#科研上新# ACL 2025上新来啦！[我来了]作为自然语言处理领域全球顶级的学术盛会之一，ACL 2025 于近日在维也纳召开。来自微软亚洲研究院的多篇论文入选，我们通过两期“科研上新”为大家分享研究院入选 ACL 2025 的精选论文解读。本期将探讨模型在公平性、包容性、鲁棒性、评估公正性与伦理对齐等方

#科研上新# ACL 2025上新来啦！[我来了]

作为自然语言处理领域全球顶级的学术盛会之一，ACL 2025 于近日在维也纳召开。来自微软亚洲研究院的多篇论文入选，我们通过两期“科研上新”为大家分享研究院入选 ACL 2025 的精选论文解读。本期将探讨模型在公平性、包容性、鲁棒性、评估公正性与伦理对齐等方面的议题，第1篇论文是《MMLU-CF：无污染的多任务语言理解基准》。

近年来，随着大语言模型（LLMs）的不断进步，如何准确评估其能力已经成为研究的热点问题。诸如大规模多任务语言理解基准 MMLU（Massive Multitask Language Understanding），在评估大语言模型中起到了重要的作用。然而，由于开放源代码和训练数据的多样性，现有基准测试难免存在数据污染的问题，影响了评估结果的可靠性。

为了提供更为公平、准确的评估，微软亚洲研究院推出了 MMLU-CF，它是基于公开数据源，经过去污染设计的大语言模型理解基准。数据集包含了20,000道题目，分为10,000道验证集题目和10,000道测试集题目，其中验证集开源，测试集闭源，涵盖健康、数学、物理、商业、化学、哲学、法律、工程等14个学科领域。研究员们发现已有模型在 MMLU 数据集上存在着不同程度的数据泄露问题，因此建立了一套机制，以防止未来在新构建的测试基准上发生泄露。

MMLU-CF 引入了三条去污染规则，并扩展了数据源，使得测试结果更加可靠：
规则1：改写问题，减少模型对已见数据的依赖；规则2：打乱选项，避免模型通过记忆选项顺序做出正确答案；规则3：随机替换选项，增加模型的推理难度。研究员们将数据集分为验证集和测试集，确保测试集保持闭源，避免数据泄漏引发的不公正结果。同时，验证集开源以促进透明度，便于独立验证。若模型未来在验证集和测试集上的评测结果存在差异，那么可能反映出验证集中潜在的数据泄露问题。通过识别和解决这些问题，可有效避免 MMLU-CF 数据集未来的泄露风险。

除此之外，当前的评估结果显示，不同模型在 MMLU-CF 上的测试结果普遍低于在 MMLU 上的表现，并且在 MMLU-CF 上的排名发生了显著的变化。譬如 OpenAI o1 在 MMLU-CF 测试集上的 5-shot 得分为80.3%，显著低于其在 MMLU 上取得的92.3%得分，表明了 MMLU-CF 基准的公平性和严格性。

MMLU-CF 为大语言模型的评估提供了一个更加公平、可靠的基准，不仅能帮助科研人员准确理解模型的能力，也为未来模型优化提供了宝贵的数据支持。

论文链接：http://t.cn/A6Fkezz2

发布于日本