【冷静对待LLM的评测结果】- 人们通过让大型语言模型(LLM)参加人类智力测试来证明它们的能力，但这些测试存在缺陷。LLM在某些测试中表现不错，但在其他测试中却失败，因此很难判断这些成绩到底反映了什么。 - 这些测试针对人类设计，基于很多假设。但对LLM却不一定成立。我们不能简单地把人类测试

【冷静对待LLM的评测结果】
- 人们通过让大型语言模型(LLM)参加人类智力测试来证明它们的能力，但这些测试存在缺陷。LLM在某些测试中表现不错，但在其他测试中却失败，因此很难判断这些成绩到底反映了什么。
- 这些测试针对人类设计，基于很多假设。但对LLM却不一定成立。我们不能简单地把人类测试应用到LLM上，并据此下结论。
- LLM的表现十分不稳定。人类通常在一个测试中得高分，在相似测试中也能得高分。但LLM的表现则具有巨大随机性。
- LLM可能是通过纯记忆答案来“作弊”通过测试的。有证据显示它们在训练数据出现过的题目上表现优异，但在全新题目上就很差。
- 我们需要更严谨的LLM评估方法。可以借鉴测试动物智力的科学实验方法，进行控制实验、多角度验证。
- 应更关注LLM如何通过测试，而非仅仅通过与不通过。我们需要反向工程这些模型，了解它们运作的算法。
- LLM在语言领域的表现将迫使我们重新思考“智能”的本质和评判标准。
《AI hype is built on high test scores. Those tests are flawed. | MIT Technology Review》 http://t.cn/A6W77Esr #机器学习#

发布于北京