大模型测试表现不佳

这波AI圈，真的有点被“打回原形”的意思了。#把AI打回原形#

一个新出的超难测试，直接把现在最强那批大模型按在地上摩擦：人类几乎能轻松通关，AI第一名却只拿到0.2%的分数。最扎心的不是它不会做，而是它总像“自以为懂了”，结果一路错到底。

说白了，很多大模型现在更像是背了很多题的学霸，平时看着什么都会，一旦被丢进一个没有提示、没有标准答案、还得边试边想的新环境，短板就全出来了。人类会先观察、猜规律、试错、再修正，但AI很容易一上来就脑补剧情，然后越操作越离谱。

这条消息真正吓人的地方，不是“AI不行了”，而是它再次提醒所有人：我们以为AI已经很聪明了，但它离真正像人一样理解世界，可能还差得非常远。之前那种“AGI马上来了”的气氛，今晚多少得先降降温。

你以为AI已经快成“新物种”了，结果一场测试下来发现，它可能还停留在“会做题，不会活学活用”的阶段。这个反差，才是最值得细品的。