Opus 4.8常规升级

早上醒来，看了 Claude Opus 4.8 发布的官方介绍。

这次升级就是一次非常小的常规升级啊，也没啥值得炸裂和震惊的。

不过，最让人不能忍的是 Opus 4.6 被下了，无语。

这次这么早发布 Opus 4.8 ，可能是 4.7 实在不好用导致吧，也可能是被 GPT 和 Codex 逼得太紧了。

我认为这次升级最值得注意的有两个点，是非常好的。

1、这次主打诚实

Anthropic 专门重点强调了：Opus 4.8主打一个实诚，不会胡乱瞎写。按官方评测，Opus 4.8 尝试蒙混过关的概率，只有 4.7 的 1/4，它更愿意主动标出自己拿不准的地方，少了凭空断言。而在「错误对齐行为」这项打分上，Opus 4.8 几乎贴到了 Mythos Preview，明显好于 Opus 4.7 和 Sonnet 4.6 都明显更高

2、dynamic workflows

发布了 dynamic workflows ，翻译过来就是动态工作流，它的作用是什么呢？就是可以根据你的需求进行任务的拆分，进行脚本的编排，一次任务里可以并行几十甚至上百个子 Agent 进行干活，每个 subAgent 干完之后，会自己先验证，再汇总，最终把结果交给你。

dynamic workflows 今天起将以研究预览的形式上线，覆盖 Claude Code 的命令行、桌面端和 VS Code 插件。

这两点意味着大模型的发展正在从"更聪明"转向"更可靠"和"更能干活"。

过去一年，所有厂商都在卷benchmark分数、卷推理能力、卷上下文长度。但实际用下来，用户最头疼的问题从来不是模型不够聪明，而是它太会装聪明：明明不确定的事情也能编得头头是道，你根本分不清哪句话可信、哪句话是它现编的。Anthropic 这次把"诚实"当主打卖点来宣传，说明他们终于意识到，对于真正把 AI 当工具用的人来说，一个会说"我不确定"的模型，比一个永远自信满满但经常出错的模型有用得多。

至于 dynamic workflows，这个方向更值得关注。单个模型再强，处理复杂任务时也会遇到上下文窗口的瓶颈、注意力分散的问题。把一个大任务拆成几十个子任务并行处理，每个子 Agent 专注做一小块，做完自己验证，这其实是在用工程架构来弥补单模型的能力天花板。这个思路跟 OpenAI 做 Codex 的方向一致：与其死磕单次推理的极限，不如让模型学会协作和分工。

这两个方向合在一起看，大模型竞争的下半场已经很清楚了：谁能让用户更放心地把真实工作交给 AI，谁就赢。不是比谁的 demo 更炫，是比谁在日常使用中翻车更少、干活更稳。

#How I AI##科技先锋官#

发布于山东