爱可可-爱生活 26-02-06 07:32
微博认证:AI博主 2025微博新锐新知博主

【当你的AI助手突然“变傻”:Opus 4.5性能下滑背后的真相】

最近Reddit上掀起了一场关于Claude Opus 4.5性能下滑的大讨论,而且这次不是普通用户的抱怨,是那些做足了功课的重度用户在发声。

一位用户分享了自己的经历:他有完善的CLAUDE.md配置,严格控制上下文长度不超过100k,采用版本控制的规范文档和分批任务执行的方法论流程。去年12月,他终于可以放手让Opus 4.5自由发挥,模型能够将高层级规范转化为优秀的设计模式实现。

但现在?连基础的前端任务都搞不定。他要求实现字体粗细的平滑过渡效果,模型直接写出错误代码,用简单的hover伪类加font-weight属性。被指出问题后,模型又声称需要使用带wght轴的可变字体,而项目明明已经在用可变字体了。

这不是个例。社区里做文学分析、非虚构写作、通用推理的用户都在报告类似问题:模型变得更笨、更健忘、无法遵循指令甚至无法执行自己制定的计划。

有意思的是,MarginLab的AI性能追踪器显示,Opus 4.5的编码基准测试在过去几天出现了统计学意义上的显著下降,创下了新低,相对下降幅度达到约20%。

社区总结出几个关键发现:

第一,峰值时段影响明显。欧洲用户反映,早晨使用和美国上线后使用,体验有天壤之别。有人甚至养成了把工作推迟到第二天早上的习惯。

第二,API用户似乎不受影响。几位重度API用户表示没有察觉到性能下降,这暗示问题主要出在订阅版的Web界面上。

第三,新模型发布前的老规律。每次新模型即将发布时,现有模型的性能就会出现波动。Sonnet 5的发布传闻正在流传,这个时间点太巧合了。

关于原因,社区有几种猜测。资源重新分配是最主流的解释:Anthropic可能正在将计算资源调配给即将发布的新模型训练和测试。还有人提出A/B测试假说,认为公司可能在不知情的情况下向部分用户推送新模型进行测试。更有趣的是一个反转猜想:去年12月那个表现惊艳的“改进版Opus”,会不会其实就是新的Sonnet?而现在大家感知到的“性能下降”,反而是真正的Opus?

一位用户的观察很有洞察力:科技公司一直在进行用户不知情的A/B测试,这是了解模型表现的最佳方式,比如使用新模型的用户是否有更高的留存率和参与度。

这种情况让很多用户开始转向Codex。虽然Codex更慢,但目前比被削弱的Opus更可靠。正如一位用户所说:如果官方明确告知下周会发布Sonnet 5,大家可以等待,但这种不透明的做法让人难以接受。

还有一个值得关注的细节:Reddit在2025年6月起诉Anthropic未经许可抓取数据超过10万次。如果Anthropic因诉讼不得不移除或停止使用Reddit衍生的训练数据,那将是一大块实用的、真实世界开发知识的流失。毕竟Stack Overflow给你教科书式的答案,Reddit给你的是“当其他方法都失败时,这个方法真正有效”。

对于普通用户来说,有几个实用建议:尝试在非高峰时段使用,保持CLAUDE.md简洁在400行以内,使用XML结构化规范而非Markdown,以及考虑暂时切换到其他模型完成关键任务。

这场讨论揭示了一个更深层的问题:当AI服务成为工作流程的核心依赖时,性能的不透明波动会带来多大的困扰。用户为专业级服务付费,却得不到专业级的稳定性和透明度。

也许最讽刺的是,一个以AI安全和透明度著称的公司,在自己产品的性能管理上却如此不透明。

www.reddit.com/r/ClaudeAI/comments/1qui12b/opus_45_really_is_done/

发布于 北京