【AI军备竞赛白热化:Opus 4.6与Codex 5.3同日对决】
Anthropic刚发布Claude Opus 4.6,OpenAI就在15分钟后推出Codex 5.3。Sam Altman甚至提前两小时预告直播,明显是要抢风头。这种贴身肉搏的节奏,让人想起当年浏览器大战的味道。
先说硬指标。Opus 4.6在ARC-AGI 2基准测试上拿下68.8%,而4.5只有37.6%,几乎翻倍。这个跳跃幅度让不少人感到意外,有用户直言这是“自适应思维”技术不再是营销话术的第一个实证。如果首字节响应时间能稳定在500毫秒以内,专门的推理模型在大多数工作流中可能就没有存在必要了。
上下文窗口终于突破到100万token,虽然仅限API且需要特定条件。考虑到五年前GPT-3还在1024到2048 token的窗口里挣扎,这个进步确实肉眼可见。最大输出也比4.5翻了一倍。
实际体验如何?有人用它生成了一份53页的全彩PDF报告,包含图表和数据分析,20分钟完成,质量相当专业。也有人跑了一系列编码测试,结论是比4.5好大约2%,速度略有提升,但那些基础语法错误依然存在。
有意思的是社区里的一种声音:Opus 4.5在过去几周明显变慢变差,然后4.6适时登场。这让部分用户怀疑是否存在人为降级老版本的策略。Anthropic官方否认过这种做法,但用户的体感很难被数据说服。
订阅用户可以去设置里的Usage页面找找有没有礼盒图标,点击能领50美元额度。这个小彩蛋不少人都没注意到。
模型能力的边际提升正在变小,这是事实。但换个角度看,一年前的模型和今天比,差距依然明显。进步没有停止,只是我们的期待跑得更快。当ARC-AGI分数逼近80%时,它在特定任务上就会超过所有人类专家的平均水平。那个临界点可能比想象中更近。
reddit.com/r/singularity/comments/1qwrrn7/claude_opus_46_is_out
