Claude Opus 4.8登场

#Claude Opus 4.8正式登场#，价格一分未涨。在衡量真实世界Agent能力的GDPval-AA榜单上，Opus 4.8拿下1890 Elo断层第一，比上代高137分，比GPT-5.5高121分，完成同等任务还少用15%步骤、少输出35% token。

跑分之外，Anthropic这次重点强调诚实。「写完有缺陷代码却闷不吭声」的概率比4.7低近4倍，谎报率和偷懒调查率均达到历史首次的0%。

编码能力方面，SWE-Bench Pro拿下69.2%，比GPT-5.5高10个百分点；ProgramBench低预算下即达79.5%，超越4.7高预算表现；FrontierSWE以83%胜率登顶，将Zig写PostgreSQL、重写git这类硬核系统工程全部拿下。

Claude Code同步推出dynamic workflows：接到大活后自动写调度脚本，拆成数十上百子任务交由大群subagent并行执行，完成后再派另一批agent互相挑刺，汇总后才交付结果。
Bun作者Jarred Sumner用此将75万行Zig代码迁移为Rust，99.8%原有测试通过，仅用11天，产生六千多次提交，几乎无需人工逐行审查。

同日，Anthropic完成650亿美元H轮融资，估值9650亿美元首次超越OpenAI，成为全球估值最高AI初创公司。更强的Claude Mythos将在未来几周上线，这场ASI巅峰对决才刚刚开始。