Claude Opus 4.8发布引争议

Claude Opus 4.8深夜发布，性能究竟如何？有人高呼封神，有人吐槽不如4.7，技术大佬也来拆台。是真正大跃迁，还是仓促公关？
Anthropic深夜发布Claude Opus 4.8，定位复杂任务旗舰模型，主打编程、智能体任务和长时间推理，并宣布以9650亿美元估值完成650亿美元融资，超越OpenAI。神秘下一代模型Mythos也被确认将于几周内面世。
发布后，科技界瞬间分裂。以Every团队为代表的「狂热派」经过一周深度测试后直言，Opus 4.8是目前市面上最强模型，完全可以叫做Opus 5。在「高级工程师基准」测试中，4.8拿下63分，比上代4.7暴涨30分，以1分微弱优势险胜GPT-5.5；写作基准更跑出79.6的全场最高分，大幅甩开GPT-5.5的73分。沃顿商学院教授Ethan Mollick实测中，Opus 4.8自主完成了假设提出、数据清洗、文献检索、统计分析，并以LaTeX格式输出了一篇完整的小型学术论文。
然而，Ruby on Rails创始人DHH和Redis之父antirez等开发者老炮公开拆台。他们指出，4.8的「神级表现」病态依赖推理强度设定——Extra-High档位下编码得分63，降至High档位立刻暴跌至42；200美元/月Max套餐用户反映，跑复杂Agent任务几小时就撞上额度墙。antirez更直言，Anthropic将Opus 4.8与GPT-5.5放在同一张图里对比是「重大战略失误」——跑分险胜，但编码体感却被普遍认为落后，反而让用户觉得基准测试自娱自乐。桌面端Chat、Code、Cowork三个割裂标签页的UI设计，也被批评为「混乱不堪」。
耐人寻味的是，Anthropic在官方发布图中主动保留了GPT-5.5领先的TerminalCoding一项，并对对手的胜利数据加粗处理。支持者认为这体现了「诚实」这一核心卖点——官方数据显示，4.8在代码中留下缺陷却不声张的概率比4.7降低了4倍。
一个不容忽视的背景是：Opus 4.8距上代4.7发布仅隔6周，是Anthropic历史上最快的大版本迭代，被业内人士直指是「因GPT-5.5蚕食市场份额而仓促应战的创可贴」。真正的智能质变，或许要等Mythos登场才能见分晓。