信号与噪声 26-04-24 11:04
微博认证:财经观察官 科技博主

AI降智Claude自己承认了[允悲][允悲]
~~~~~~~~~
你说巧不巧

GPT 5.5刚发布,Anthropic 就说他们找到了Claude最近降智的原因了,并且修复了它...🙃

Anthropic称"Claude 变笨了"归结为三个独立但叠加的变更,全部已在 4月20日 v2.1.116 修复。

20号修复,今天才公布,而且我感觉并没有修复的迹象...

三个问题分别发生在 3月4日、3月26日、4月16日:

① 3月4日,把默认思考时长从"长"调成"中"。

原因是 high 模式下 Claude 偶尔想太久,UI 像卡死了。内部测下来 medium 智能只掉一点点、速度快很多,就换了默认值。结果用户明显感觉变笨。4月7日改回来,现在 Opus 4.7 默认 xhigh,其他模型默认 high。

② 3月26日,一个缓存优化写出了 bug。

本来只是想在会话闲置超过一小时后,清理一次老的思考记录省点 token。结果实现成了此后每一轮都在清,Claude 越干越不记得自己为什么干,表现出来就是健忘、重复、工具乱用。顺带还让用户的额度掉得比平时快,因为每次都缓存没命中。4月10日修好。

③ 4月16日,为了让 Opus 4.7 少废话,在 system prompt 里加了一条指令:

"工具调用之间文本 ≤25 词,最终回复 ≤100 词(除非任务需要更多细节)。"

内部评测跑了几周没发现问题,就跟 Opus 4.7 一起上了。后来用更广的评测集一条条删 prompt 测,才发现这句话让 Opus 4.6 和 4.7 都掉了 3%。4月20日回滚。

为什么这么久才发现: 三个变更影响的用户群和时间段都不一样,合起来看就是"Claude 好像变笨了但说不清楚哪里笨"。第二个 bug 还碰巧被两个不相关的内部实验给盖住了,内部员工自己用都没复现出来,定位花了一周多。from群友

发布于 安徽