Anthropic把Claude Opus 4.8发出来了。单看跑分,可能会觉得这就是一次常规升级。
SWE-Bench Pro(编程)从4.7的64.3涨到了69.2,跨学科推理也涨了,OSWorld、GDPval这些知识工作和电脑操作也都往上走了。
价格没变,今天就能用
但还有几个细节👇
1. fast mode
Opus 4.8的fast模式能跑2.5倍速,比上一代fast便宜了三倍。注意注意,比的是上一代fast mode,不是比标准模式便宜。所以还是超贵。
2. 手动effort回来了
Opus 4.7搞了个adaptive reasoning,让模型自己判断什么时候该深度思考。我超不喜欢的,因为不知道到底有没有认真想,额度本身也贵。Opus 4.8把effort拉回high,同时把控制权还给用户。但同时Opus 4.6下架了😭
3. 这次不讲安全了,改讲诚实。
Opus 4.8更不容易在活没干完的时候,硬说干完了,概率只有Opus 4.7的四分之一。
4. Claude Code的新东西dynamic workflows
这个就比较离谱了,先让Claude规划任务,然后在一个会话里拉起几百个并行subagents,每个子任务跑完以后再验证,最后汇总给你。
触发的方式也很简单,跟CC说一句create a workflow就行,我感觉token在燃烧啊!
想象一下给CC说把这一百万行Java迁到Kotlin。它会拆出几百个Agent,改文件结构,改语法,最后给出一个能合并的PR。
还有一个API的更新,
以前你用API,本质上是发一串对话记录。用户说了什么,Claude回了什么,系统规则是什么,按顺序塞进列表里。
系统规则通常放在最前面。任务跑起来,中途想改规则,临时调整权限啥的就很麻烦。要么重新组织一大段prompt,要么绕到用户消息里去补充,缓存也容易被打断。
Opus 4.8这次支持了在中途插入system指令,更省token了。
如果是Claude和GPT双用户的话怎么选呢?
在Terminal-Bench 2.1(命令行编程)看,Opus 4.8是74.6,GPT-5.5是78.2。这有个大坑,放到codex cli上5.5能打到83.4。
GPT-5.5更像老工程师。给它一个明确任务,让它敲命令,查日志,改配置、跑脚本,它很猛。Opus 4.8更像一个能读完整个项目的协作型工程师。它适合看懂一个已有项目,再跨很多文件一点点改,最后把一个长任务推进完。
最后还有个大的,
Mythos要来了,
前情回顾一下,这模型在给少数组织做网络安全任务,一个月帮从知名软件里找出了一万多个高危或严重漏洞。
说不定就蹲着GPT5.6来狙击呢。
有新模型用就是好啊,
熬夜也不困了。
🔗 anthropic. com/news/claude-opus-4-8
#claudeopus4.8发布##Opus4.8和GPT5.5谁更强##HOW I AI##科技先锋官#
发布于 广东
