很多大模型的基准测试都存在被模型靠做题刷取高分的问题。最近推出的GAUSS — 数学基础结构化技能通用评估，试图解决这个问题，为大模型评估和人工智能研究提供更严格和专业的标准。- 网站：http://t.cn/AXh2iErN- 论文：论文：http://t.cn/AXh2iErp。与现有的测试不同，GAUSS不只是检查最终答案

很多大模型的基准测试都存在被模型靠做题刷取高分的问题。最近推出的GAUSS — 数学基础结构化技能通用评估，试图解决这个问题，为大模型评估和人工智能研究提供更严格和专业的标准。

- 网站：http://t.cn/AXh2iErN
- 论文：论文：http://t.cn/AXh2iErp。

与现有的测试不同，GAUSS不只是检查最终答案，而且通过评估大模型的知识、概念理解、解决问题的策略、沟通、学习和创造力等多个维度，对大模型的能力和局限性进行全面评估，从而能揭示做对和做错数学问题的本质原因。

另外，GAUSS会从模型训练语料库中明确排除问题集，以确保公平和客观的评估。

最后，怎么能没八卦呢。这个项目的领头人，论文第一作者张钺本科毕业于北大数学系，曾是奥数金牌和阿里巴巴数学竞赛的两届冠军，只用两年时间就拿到伯克利数学系的博士学位！

#人工智能大模型数学测试的新标准#

发布于美国