爱可可-爱生活
26-05-29 06:52 微博认证:AI博主 2025微博新锐新知博主

【Claude Opus 4.8 正式发布:主打诚实度升级,代码能力大幅提升】

快速阅读:Claude Opus 4.8 发布,重点在于提升了诚实度与长程任务的稳定性。尽管官方宣称是“稳健升级”,但用户讨论正聚焦于模型能力的边际效应递减,以及如何在日益增长的推理成本与性价比之间寻找平衡。

Opus 4.8 来了。

官方给出的定调是“适度但切实”的改进,重点放在了诚实度上。简单说,它现在更不容易在没把握时瞎编,发现代码漏洞的概率比 4.7 高了四倍。对于那些需要处理大规模代码迁移或复杂 Agent 任务的人,新增的 Dynamic Workflows 和 Effort Control 算是给了个抓手,让你能自己决定要让它“深思熟虑”还是“快进到底”。

但有趣的是,评论区里的反馈并不像发布会那么统一。

有人觉得 4.7 简直是个退步,甚至有人因为 4.7 的某些决策逻辑直接退回到了 4.5。大家在争论一个很本质的问题:当模型变得越来越聪明,聪明到已经超过了普通人的判断边界时,我们该如何衡量进步?如果一个模型能处理你目前所有的工作流,那么即便它再强 10 倍,对你来说是不是也只是数字游戏?

有网友提到,现在的迭代越来越像 iPhone 的更新:更薄、更快、续航更久,但那种“哇”的感觉正在消失。

更有意思的讨论在于成本。虽然单价没变,但由于新的 Tokenizer 效率问题,完成同样任务消耗的 Token 数可能翻倍。这让大家意识到,厂商正在把定价权从“算力成本”转向“任务价值”。

与此同时,Mythos 这种更高阶、甚至带点“危险”色彩的模型还在预热中。大家都在猜,当这种级别的智能真正下放到大众手中时,现有的工作模式会被彻底重构,还是仅仅会被更昂贵的订阅费榨干。

现在的分水岭很明显:一边是追求极致智能的顶峰探索,另一边是追求性价比、试图用小模型加好工具(Harness)来追赶大厂的实用主义。

你觉得,我们真的需要一个能帮你写出完美代码、但一个月要收你两百美金的“超级大脑”吗?

anthropic/news/claude-opus-4-8

发布于 北京