Claude Opus 4.5性能下滑

【当你的AI助手突然“变傻”：Opus 4.5性能下滑背后的真相】

最近Reddit上掀起了一场关于Claude Opus 4.5性能下滑的大讨论，而且这次不是普通用户的抱怨，是那些做足了功课的重度用户在发声。

一位用户分享了自己的经历：他有完善的CLAUDE.md配置，严格控制上下文长度不超过100k，采用版本控制的规范文档和分批任务执行的方法论流程。去年12月，他终于可以放手让Opus 4.5自由发挥，模型能够将高层级规范转化为优秀的设计模式实现。

但现在？连基础的前端任务都搞不定。他要求实现字体粗细的平滑过渡效果，模型直接写出错误代码，用简单的hover伪类加font-weight属性。被指出问题后，模型又声称需要使用带wght轴的可变字体，而项目明明已经在用可变字体了。

这不是个例。社区里做文学分析、非虚构写作、通用推理的用户都在报告类似问题：模型变得更笨、更健忘、无法遵循指令甚至无法执行自己制定的计划。

有意思的是，MarginLab的AI性能追踪器显示，Opus 4.5的编码基准测试在过去几天出现了统计学意义上的显著下降，创下了新低，相对下降幅度达到约20%。

社区总结出几个关键发现：

第一，峰值时段影响明显。欧洲用户反映，早晨使用和美国上线后使用，体验有天壤之别。有人甚至养成了把工作推迟到第二天早上的习惯。

第二，API用户似乎不受影响。几位重度API用户表示没有察觉到性能下降，这暗示问题主要出在订阅版的Web界面上。

第三，新模型发布前的老规律。每次新模型即将发布时，现有模型的性能就会出现波动。Sonnet 5的发布传闻正在流传，这个时间点太巧合了。

关于原因，社区有几种猜测。资源重新分配是最主流的解释：Anthropic可能正在将计算资源调配给即将发布的新模型训练和测试。还有人提出A/B测试假说，认为公司可能在不知情的情况下向部分用户推送新模型进行测试。更有趣的是一个反转猜想：去年12月那个表现惊艳的“改进版Opus”，会不会其实就是新的Sonnet？而现在大家感知到的“性能下降”，反而是真正的Opus？

一位用户的观察很有洞察力：科技公司一直在进行用户不知情的A/B测试，这是了解模型表现的最佳方式，比如使用新模型的用户是否有更高的留存率和参与度。

这种情况让很多用户开始转向Codex。虽然Codex更慢，但目前比被削弱的Opus更可靠。正如一位用户所说：如果官方明确告知下周会发布Sonnet 5，大家可以等待，但这种不透明的做法让人难以接受。

还有一个值得关注的细节：Reddit在2025年6月起诉Anthropic未经许可抓取数据超过10万次。如果Anthropic因诉讼不得不移除或停止使用Reddit衍生的训练数据，那将是一大块实用的、真实世界开发知识的流失。毕竟Stack Overflow给你教科书式的答案，Reddit给你的是“当其他方法都失败时，这个方法真正有效”。

对于普通用户来说，有几个实用建议：尝试在非高峰时段使用，保持CLAUDE.md简洁在400行以内，使用XML结构化规范而非Markdown，以及考虑暂时切换到其他模型完成关键任务。

这场讨论揭示了一个更深层的问题：当AI服务成为工作流程的核心依赖时，性能的不透明波动会带来多大的困扰。用户为专业级服务付费，却得不到专业级的稳定性和透明度。

也许最讽刺的是，一个以AI安全和透明度著称的公司，在自己产品的性能管理上却如此不透明。

www.reddit.com/r/ClaudeAI/comments/1qui12b/opus_45_really_is_done/

发布于北京