xAI秦始皇 25-11-26 07:57
微博认证:AI博主

#微博声浪计划# #听见微博# Claude Opus 4.5逆袭登顶,AI编程王座易主!

AI圈又迎来重磅更新!Anthropic悄悄发布了Claude Opus 4.5,直接在编码、Agent能力、电脑操作等核心领域全面超越GPT-5.1和Gemini 3 Pro,稳稳坐上了编程模型的头把交椅,目前测试版已经上线,开发者通过Claude API就能直接调用。

这次Opus 4.5的表现堪称“全面开挂”。终端级编程能力是关键亮点,它在Terminal-bench 2.0评测中拿下59.3%的成绩,远超同类模型,能在真实电脑终端环境中完成工作,不只是停留在文本层面。更厉害的是,在Anthropic内部的两小时高压工程师招聘考试中,它不仅拿到历史最高分,超过所有人类候选者,用的token数量还不到上一代的一半,能轻松读懂复杂代码库、拆解多系统交互,精准定位模糊指令下的bug。

在多语言编程上,它也交出了亮眼答卷,在SWE-bench Multilingual的8种编程语言里,有7种性能领先。而在复杂业务决策中,它更是展现了“迂回求解”的智慧——比如航空客服场景中,基础经济舱不能直接改签,它会先帮用户升舱再换航班,解决单步走不通的难题。长期任务稳定性也大幅提升,在Vending-Bench测试中,多步骤任务保持能力比Sonnet 4.5高出29%,不会中途“失忆”。

视觉处理能力同样升级,它是目前唯一能搞定棘手3D可视化任务的模型,把过去两小时的工作量压缩到三十分钟。这一切成绩的背后,除了模型本身思考能力的提升,还得益于高级工具调用能力的升级——新增的Tool Search Tool让模型能按需找工具,Programmatic Tool Calling支持用Python编排工具调用,Tool Use Examples则让模型“看例子就会用工具”,彻底解决了传统Agent工具多、调用重、使用难的痛点。

更让开发者惊喜的是价格大跳水。Opus 4.5每百万token输入5美元、输出25美元,批量API调用还能打3折左右,批量输入低至2.5美元/百万token,比上一代便宜了不少。有AI辅助编码初创公司的CEO直言,之前Opus系列虽强但成本太高,现在的价格完全能成为大多数任务的首选模型。

从Excel协同到复杂代码重构,从工具链操作到3D可视化处理,Claude Opus 4.5用实力重新定义了AI的实用价值。如果你是开发者,要不要试试用它处理下一段代码迁移或系统调试任务,感受下新一代编程AI的高效? http://t.cn/AXLpGEB4