Claude Opus 4.8深夜发布,性能究竟如何?有人高呼封神,有人吐槽不如4.7,技术大佬也来拆台。是真正大跃迁,还是仓促公关?
Anthropic深夜发布Claude Opus 4.8,定位复杂任务旗舰模型,主打编程、智能体任务和长时间推理,并宣布以9650亿美元估值完成650亿美元融资,超越OpenAI。神秘下一代模型Mythos也被确认将于几周内面世。
发布后,科技界瞬间分裂。以Every团队为代表的「狂热派」经过一周深度测试后直言,Opus 4.8是目前市面上最强模型,完全可以叫做Opus 5。在「高级工程师基准」测试中,4.8拿下63分,比上代4.7暴涨30分,以1分微弱优势险胜GPT-5.5;写作基准更跑出79.6的全场最高分,大幅甩开GPT-5.5的73分。沃顿商学院教授Ethan Mollick实测中,Opus 4.8自主完成了假设提出、数据清洗、文献检索、统计分析,并以LaTeX格式输出了一篇完整的小型学术论文。
然而,Ruby on Rails创始人DHH和Redis之父antirez等开发者老炮公开拆台。他们指出,4.8的「神级表现」病态依赖推理强度设定——Extra-High档位下编码得分63,降至High档位立刻暴跌至42;200美元/月Max套餐用户反映,跑复杂Agent任务几小时就撞上额度墙。antirez更直言,Anthropic将Opus 4.8与GPT-5.5放在同一张图里对比是「重大战略失误」——跑分险胜,但编码体感却被普遍认为落后,反而让用户觉得基准测试自娱自乐。桌面端Chat、Code、Cowork三个割裂标签页的UI设计,也被批评为「混乱不堪」。
耐人寻味的是,Anthropic在官方发布图中主动保留了GPT-5.5领先的TerminalCoding一项,并对对手的胜利数据加粗处理。支持者认为这体现了「诚实」这一核心卖点——官方数据显示,4.8在代码中留下缺陷却不声张的概率比4.7降低了4倍。
一个不容忽视的背景是:Opus 4.8距上代4.7发布仅隔6周,是Anthropic历史上最快的大版本迭代,被业内人士直指是「因GPT-5.5蚕食市场份额而仓促应战的创可贴」。真正的智能质变,或许要等Mythos登场才能见分晓。
