爱可可-爱生活 23-10-11 08:07
微博认证:AI博主 2025微博新锐新知博主

【冷静对待LLM的评测结果】
- 人们通过让大型语言模型(LLM)参加人类智力测试来证明它们的能力,但这些测试存在缺陷。LLM在某些测试中表现不错,但在其他测试中却失败,因此很难判断这些成绩到底反映了什么。
- 这些测试针对人类设计,基于很多假设。但对LLM却不一定成立。我们不能简单地把人类测试应用到LLM上,并据此下结论。
- LLM的表现十分不稳定。人类通常在一个测试中得高分,在相似测试中也能得高分。但LLM的表现则具有巨大随机性。
- LLM可能是通过纯记忆答案来“作弊”通过测试的。有证据显示它们在训练数据出现过的题目上表现优异,但在全新题目上就很差。
- 我们需要更严谨的LLM评估方法。可以借鉴测试动物智力的科学实验方法,进行控制实验、多角度验证。
- 应更关注LLM如何通过测试,而非仅仅通过与不通过。我们需要反向工程这些模型,了解它们运作的算法。
- LLM在语言领域的表现将迫使我们重新思考“智能”的本质和评判标准。
《AI hype is built on high test scores. Those tests are flawed. | MIT Technology Review》 http://t.cn/A6W77Esr #机器学习#

发布于 北京