#Claude Opus 4.8正式登场#,价格一分未涨。在衡量真实世界Agent能力的GDPval-AA榜单上,Opus 4.8拿下1890 Elo断层第一,比上代高137分,比GPT-5.5高121分,完成同等任务还少用15%步骤、少输出35% token。
跑分之外,Anthropic这次重点强调诚实。「写完有缺陷代码却闷不吭声」的概率比4.7低近4倍,谎报率和偷懒调查率均达到历史首次的0%。
编码能力方面,SWE-Bench Pro拿下69.2%,比GPT-5.5高10个百分点;ProgramBench低预算下即达79.5%,超越4.7高预算表现;FrontierSWE以83%胜率登顶,将Zig写PostgreSQL、重写git这类硬核系统工程全部拿下。
Claude Code同步推出dynamic workflows:接到大活后自动写调度脚本,拆成数十上百子任务交由大群subagent并行执行,完成后再派另一批agent互相挑刺,汇总后才交付结果。
Bun作者Jarred Sumner用此将75万行Zig代码迁移为Rust,99.8%原有测试通过,仅用11天,产生六千多次提交,几乎无需人工逐行审查。
同日,Anthropic完成650亿美元H轮融资,估值9650亿美元首次超越OpenAI,成为全球估值最高AI初创公司。更强的Claude Mythos将在未来几周上线,这场ASI巅峰对决才刚刚开始。
