这两天逛知乎,刷到了一道非常有趣的AI智商测试题。
有人问AI:今年才知道,亲生父母结婚时没有叫我,我很难过,应该怎么办?
豆包、千问、DeepSeek、ChatGPT,都认真安慰,并给出了情感支持。
只有Gemini回了一句:你那时候还没出生。
另一道题,大家应该都刷到过,就是那个非常著名的“洗车难题”:我家附近50米就有洗车店,请问我应该怎么去?
面对这道题,很多AI都翻车了:建议步行前往,环保又健康。
你第一反应可能是觉得好笑。
但仔细想想,这个问题其实并不难,为什么能难倒一众AI?
有个知乎答主给出了一个非常细致的分析:AI处理的是信息,不是现实。
它看到"50米"和"出行方式",调用的是统计概率——短距离出行,步行是最高频的答案,所以它就这么输出了。
它没有意识到要洗的那个东西重达一两吨,而且本身就是交通工具。
因为它自己从来没有感受过重量,也没有感受过任何东西。
你会发现,这个分析比「AI真笨」这个结论有价值得多。
因为它指向了一个非常具体的问题:AI非常擅长在一个给定的框架里找答案,但它很难意识到这个框架本身是不是有问题。
这个春节,知乎发起了一个叫“AI请接招”的活动,邀请到了各个领域的人用自己专业里的真实问题去测试大模型。
不是出脑筋急转弯,而是把他们在工作里每天都会碰到的具体问题直接丢给AI,看它能走多远。
参与的人来自很多不同的方向:水文水资源工程、儿童课程开发、公交线路规划、自动化交易……
然后你会发现,在每一个细分领域里,AI都以不同的方式翻车了。
一个水文工程师问了几个专业概念的辨析。
供水能力、可供水量、供水保证率,这些概念教材里都有,但不同来源表述不一致,实践和理论之间还有偏差。
几乎所有AI都答错了,有的把两个不同领域的近似概念混为一谈,有的把与需水量无关直接理解成了以最大需水量作为依据,意思完全反了。
做儿童课程的人让AI生成一个经典科学玩具的制作步骤图,网上资料一大堆,但AI生成的图里绳结位置不对,孔位不对,操作方法也没有体现,每一步都有细节错误。
做公交线路规划的人发现,AI会把一条线路三年前的走向和现在的实际走向混合在一起,输出一个历史上任何时候都不存在的路线。
这些测试有一个共同点:AI不知道自己答错了。
它给出的每一个错误答案,都有非常完整的逻辑链条,如果你不是这个领域的专业人士,你很可能不会发现哪里不对。
就像Andrej Karpathy之前在采访里说的,你做出一个demo,它在 90% 的情况下能工作,这只是第一个 “9”。然后你需要第二个 9、第三个 9、第四个 9、第五个 9。
而每一个新增的 9,所需要的工作量都和之前所有 9 加起来一样多。
专业领域里那最后一点精度,是AI目前最难跨越的地方,也是最难被替代的东西。
而这些能发现AI答错的人,正是因为他们在自己的领域里积累了足够多的真实经验。
他们做过这些事,走过这些坑,知道在现实场景里什么能用、什么看起来对但其实落不了地。
这种判断力,是要靠真实的、有代价的实践经历慢慢磨出来的。
这也是为什么知乎上的这些讨论,不只是在记录AI翻车,而是让这些散落在各个专业领域里的真实经验,变得可以被追问和讨论。
AI训练需要高质量的人类经验作为基础,而这些经过讨论、验证和专业人士筛选的内容,恰恰是最稀缺的那种。
某种程度上,知乎上每一个认真写下来的专业回答,也是在为AI时代积累真正有价值的东西。
技术会继续进步,AI处理信息的能力还会大幅提升,这是确定的。
但在一个具体的、真实的场景里判断对错,依然需要真实的专业积累。
比如发现一个问题框架本身是否成立,就需要直接的来自现实的经验。
AI越强,它能解决的问题就越多。而剩下那些它解决不了的,才是真正的稀缺资源。
那些能看出AI在哪里出了问题的人,他们积累的判断力,就藏在每一个认真写下来的回答里。
