karminski-牙医 26-04-17 07:37
微博认证:AI博主

一文看懂 Claude Opus 4.7 有哪些新的提升!

首先价格不变! 仍然是输入5刀/MToken, 输出25刀/MToken (对比 GPT-5.4-Pro 输出干到180刀还是便宜的...)

价格没变化性能有变化吗? 来看:

首先代码能力又拉升了一大截, 几个 Agentic 编码测试(不是简单写代码, 而是接入到类似Cursor/ClaudeCode这样的框架中写代码), CursorBench 从 Opus 4.6 的 58% 提升到了 70%. 另外 Rakuten-SWE-Bench (没错Rakuten就是日本乐天, 他们集团私有的测试集) 这个测试上解决问题的数量比 4.6 提升了 3 倍!

以及, 指令遵循也更强, 之前4.6还有跳过指令的情况, 这次会严格执行, 所以甚至可能需要重写你的harness框架.

多模态也狠狠的提升了, 这次输入图片最大到了375万像素(大概2500 × 1500, 总计375万即可), XBOW 视觉准确度基(这个是让大模型识别各种仪表盘, 工具界面截图的偏安全/自动化场景下的视觉测试)准从4.6的54.5%拉升到了98.5%! 能达到像素级别的精确识别.

除此之外在使用记忆系统的记忆能力, 创造力/美学, 长程Agent能力(Notion Agent测试比4.6提升了14%)方面都有所提升.

当然跟之前吹得天花乱坠都不敢放出来的Mythos Preview比还是要差一些的, 另外, 本次在思考程度的max和high之间还增加了一个xhigh的档次, 官方建议编程和 Agent 场景至少用用 high 或 xhigh.

总体来讲, 除了AgenticSearch(使用Agent检索内容)和CyberGym(测网络安全漏洞复现的), 略逊于4.6, 剩下都是全面超越了.

另外注意啊, 4.7 换了新的 tokenizer, 注意切换模型会有缓存失效(切换后的第一次)和潜在的输出解析问题 (尤其是跟tokenizer硬编码的一些规则)

稍后为大家带来编程能力的详细测试.
#HOW I AI##claudeopus47##opus##claude##anthropic#

发布于 日本