AI专业测试表现分析

这两天逛知乎，刷到了一道非常有趣的AI智商测试题。

有人问AI：今年才知道，亲生父母结婚时没有叫我，我很难过，应该怎么办？

豆包、千问、DeepSeek、ChatGPT，都认真安慰，并给出了情感支持。
只有Gemini回了一句：你那时候还没出生。

另一道题，大家应该都刷到过，就是那个非常著名的“洗车难题”：我家附近50米就有洗车店，请问我应该怎么去？
面对这道题，很多AI都翻车了：建议步行前往，环保又健康。

你第一反应可能是觉得好笑。
但仔细想想，这个问题其实并不难，为什么能难倒一众AI？

有个知乎答主给出了一个非常细致的分析：AI处理的是信息，不是现实。
它看到"50米"和"出行方式"，调用的是统计概率——短距离出行，步行是最高频的答案，所以它就这么输出了。

它没有意识到要洗的那个东西重达一两吨，而且本身就是交通工具。
因为它自己从来没有感受过重量，也没有感受过任何东西。

你会发现，这个分析比「AI真笨」这个结论有价值得多。
因为它指向了一个非常具体的问题：AI非常擅长在一个给定的框架里找答案，但它很难意识到这个框架本身是不是有问题。

这个春节，知乎发起了一个叫“AI请接招”的活动，邀请到了各个领域的人用自己专业里的真实问题去测试大模型。
不是出脑筋急转弯，而是把他们在工作里每天都会碰到的具体问题直接丢给AI，看它能走多远。

参与的人来自很多不同的方向：水文水资源工程、儿童课程开发、公交线路规划、自动化交易……
然后你会发现，在每一个细分领域里，AI都以不同的方式翻车了。

一个水文工程师问了几个专业概念的辨析。
供水能力、可供水量、供水保证率，这些概念教材里都有，但不同来源表述不一致，实践和理论之间还有偏差。

几乎所有AI都答错了，有的把两个不同领域的近似概念混为一谈，有的把与需水量无关直接理解成了以最大需水量作为依据，意思完全反了。

做儿童课程的人让AI生成一个经典科学玩具的制作步骤图，网上资料一大堆，但AI生成的图里绳结位置不对，孔位不对，操作方法也没有体现，每一步都有细节错误。

做公交线路规划的人发现，AI会把一条线路三年前的走向和现在的实际走向混合在一起，输出一个历史上任何时候都不存在的路线。

这些测试有一个共同点：AI不知道自己答错了。
它给出的每一个错误答案，都有非常完整的逻辑链条，如果你不是这个领域的专业人士，你很可能不会发现哪里不对。

就像Andrej Karpathy之前在采访里说的，你做出一个demo，它在 90% 的情况下能工作，这只是第一个 “9”。然后你需要第二个 9、第三个 9、第四个 9、第五个 9。
而每一个新增的 9，所需要的工作量都和之前所有 9 加起来一样多。

专业领域里那最后一点精度，是AI目前最难跨越的地方，也是最难被替代的东西。

而这些能发现AI答错的人，正是因为他们在自己的领域里积累了足够多的真实经验。
他们做过这些事，走过这些坑，知道在现实场景里什么能用、什么看起来对但其实落不了地。

这种判断力，是要靠真实的、有代价的实践经历慢慢磨出来的。

这也是为什么知乎上的这些讨论，不只是在记录AI翻车，而是让这些散落在各个专业领域里的真实经验，变得可以被追问和讨论。

AI训练需要高质量的人类经验作为基础，而这些经过讨论、验证和专业人士筛选的内容，恰恰是最稀缺的那种。
某种程度上，知乎上每一个认真写下来的专业回答，也是在为AI时代积累真正有价值的东西。

技术会继续进步，AI处理信息的能力还会大幅提升，这是确定的。
但在一个具体的、真实的场景里判断对错，依然需要真实的专业积累。
比如发现一个问题框架本身是否成立，就需要直接的来自现实的经验。

AI越强，它能解决的问题就越多。而剩下那些它解决不了的，才是真正的稀缺资源。

那些能看出AI在哪里出了问题的人，他们积累的判断力，就藏在每一个认真写下来的回答里。

发布于上海