AI军备竞赛白热化

【AI军备竞赛白热化：Opus 4.6与Codex 5.3同日对决】

Anthropic刚发布Claude Opus 4.6，OpenAI就在15分钟后推出Codex 5.3。Sam Altman甚至提前两小时预告直播，明显是要抢风头。这种贴身肉搏的节奏，让人想起当年浏览器大战的味道。

先说硬指标。Opus 4.6在ARC-AGI 2基准测试上拿下68.8%，而4.5只有37.6%，几乎翻倍。这个跳跃幅度让不少人感到意外，有用户直言这是“自适应思维”技术不再是营销话术的第一个实证。如果首字节响应时间能稳定在500毫秒以内，专门的推理模型在大多数工作流中可能就没有存在必要了。

上下文窗口终于突破到100万token，虽然仅限API且需要特定条件。考虑到五年前GPT-3还在1024到2048 token的窗口里挣扎，这个进步确实肉眼可见。最大输出也比4.5翻了一倍。

实际体验如何？有人用它生成了一份53页的全彩PDF报告，包含图表和数据分析，20分钟完成，质量相当专业。也有人跑了一系列编码测试，结论是比4.5好大约2%，速度略有提升，但那些基础语法错误依然存在。

有意思的是社区里的一种声音：Opus 4.5在过去几周明显变慢变差，然后4.6适时登场。这让部分用户怀疑是否存在人为降级老版本的策略。Anthropic官方否认过这种做法，但用户的体感很难被数据说服。

订阅用户可以去设置里的Usage页面找找有没有礼盒图标，点击能领50美元额度。这个小彩蛋不少人都没注意到。

模型能力的边际提升正在变小，这是事实。但换个角度看，一年前的模型和今天比，差距依然明显。进步没有停止，只是我们的期待跑得更快。当ARC-AGI分数逼近80%时，它在特定任务上就会超过所有人类专家的平均水平。那个临界点可能比想象中更近。

reddit.com/r/singularity/comments/1qwrrn7/claude_opus_46_is_out

发布于北京