很多大模型的基准测试都存在被模型靠做题刷取高分的问题。最近推出的GAUSS — 数学基础结构化技能通用评估,试图解决这个问题,为大模型评估和人工智能研究提供更严格和专业的标准。
- 网站:http://t.cn/AXh2iErN
- 论文:论文:http://t.cn/AXh2iErp。
与现有的测试不同,GAUSS不只是检查最终答案,而且通过评估大模型的知识、概念理解、解决问题的策略、沟通、学习和创造力等多个维度,对大模型的能力和局限性进行全面评估,从而能揭示做对和做错数学问题的本质原因。
另外,GAUSS会从模型训练语料库中明确排除问题集,以确保公平和客观的评估。
最后,怎么能没八卦呢。这个项目的领头人,论文第一作者张钺本科毕业于北大数学系,曾是奥数金牌和阿里巴巴数学竞赛的两届冠军,只用两年时间就拿到伯克利数学系的博士学位!
#人工智能大模型数学测试的新标准#
发布于 美国
