详细解读下苹果前几天发的论文《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity》http://t.cn/A6eVU5CI
1.核心观点:AI推理模型是假的,仅仅是模式匹配机器。
2.研究发现:用汉诺塔、过河问题等可调难度的谜题测试了DeepSeek-R1、Claude 3.7等“推理模型”,发现三个现象:
(1)简单问题:普通模型反而更准,推理模型常“想太多”出错;
(2)中等问题:推理模型优势明显,思考步骤有用;
(3)高难问题:所有模型集体“崩溃”,准确率直接归零。
3.批判意见:我搜了网上对这篇论文的质疑,三处硬伤:
(1)测试任务脱离现实。
论文用“汉诺塔”等机械谜题当尺子,但这类任务需严格重复千百步操作,人类也会抓狂。GitHub工程师Sean实测发现:模型不是“不会推理”,而是判断“步数太多”后主动放弃,像人嫌麻烦不想手算一样。用执行力不足反推智力缺陷,逻辑站不住脚。
(2)忽视模型的自知能力。
当DeepSeek-R1面对10层汉诺塔时说:“手动列所有步骤不现实,需找系统方法”——这恰说明它能评估任务可行性,而非无脑执行。苹果将此视为“崩溃”,却未解释这种自知式放弃为何不是更高级的推理。
(3)混淆“不愿做”和“不能做”。
论文称“即使给解题算法,模型也失败”——但有人复现实验,发现主因是输出长度限制(如token超限),而非逻辑崩塌。就像给你菜谱却只许写5个字,做不好菜不等于不懂烹饪。
4.引申思考:推理≠解谜
苹果的测试像让学生背公式解数学题,但真实世界的推理需结合知识、工具与目标调整。人类医生诊断时,会查资料、用仪器、问同行;AI写代码时,也会调用API、搜索文档。而苹果把模型关进“谜题真空舱”,切断一切外部工具和上下文,自然显得笨拙。推理的本质是路径探索,不是苦力计算。要求AI像计算机一样精准执行千步汉诺塔,如同逼人徒手开平方——做不到,不代表不会推理。
5.人类与AI的区别:该警惕的不是AI多笨,而是我们多懒
苹果论文有价值:它揭穿了“AI万能论”的泡沫,尤其当任务变成机械操作时。但它错在把短板当本质,用单一测试否定全局能力。
当前大模型当然不完美:它们会瞎想、会放弃、会抄近道——但这不正像人类吗?真正的危险,是我们指望AI代替思考,却忘了自己的责任:定义问题,选择工具,校准方向。 模型是镜子,照出的,始终是我们自己的期待与局限。
#微博兴趣创作计划##ai创造营##人工智能[超话]##苹果新论文证明llm大模型存在缺陷#
