早上醒来,看了 Claude Opus 4.8 发布的官方介绍。
这次升级就是一次非常小的常规升级啊,也没啥值得炸裂和震惊的。
不过,最让人不能忍的是 Opus 4.6 被下了,无语。
这次这么早发布 Opus 4.8 ,可能是 4.7 实在不好用导致吧,也可能是被 GPT 和 Codex 逼得太紧了。
我认为这次升级最值得注意的有两个点,是非常好的。
1、这次主打诚实
Anthropic 专门重点强调了:Opus 4.8主打一个实诚,不会胡乱瞎写。按官方评测,Opus 4.8 尝试蒙混过关的概率,只有 4.7 的 1/4,它更愿意主动标出自己拿不准的地方,少了凭空断言。而在「错误对齐行为」这项打分上,Opus 4.8 几乎贴到了 Mythos Preview,明显好于 Opus 4.7 和 Sonnet 4.6 都明显更高
2、dynamic workflows
发布了 dynamic workflows ,翻译过来就是动态工作流,它的作用是什么呢?就是可以根据你的需求进行任务的拆分,进行脚本的编排,一次任务里可以并行几十甚至上百个子 Agent 进行干活,每个 subAgent 干完之后,会自己先验证,再汇总,最终把结果交给你。
dynamic workflows 今天起将以研究预览的形式上线,覆盖 Claude Code 的命令行、桌面端和 VS Code 插件 。
这两点意味着大模型的发展正在从"更聪明"转向"更可靠"和"更能干活"。
过去一年,所有厂商都在卷benchmark分数、卷推理能力、卷上下文长度。但实际用下来,用户最头疼的问题从来不是模型不够聪明,而是它太会装聪明:明明不确定的事情也能编得头头是道,你根本分不清哪句话可信、哪句话是它现编的。Anthropic 这次把"诚实"当主打卖点来宣传,说明他们终于意识到,对于真正把 AI 当工具用的人来说,一个会说"我不确定"的模型,比一个永远自信满满但经常出错的模型有用得多。
至于 dynamic workflows,这个方向更值得关注。单个模型再强,处理复杂任务时也会遇到上下文窗口的瓶颈、注意力分散的问题。把一个大任务拆成几十个子任务并行处理,每个子 Agent 专注做一小块,做完自己验证,这其实是在用工程架构来弥补单模型的能力天花板。这个思路跟 OpenAI 做 Codex 的方向一致:与其死磕单次推理的极限,不如让模型学会协作和分工。
这两个方向合在一起看,大模型竞争的下半场已经很清楚了:谁能让用户更放心地把真实工作交给 AI,谁就赢。不是比谁的 demo 更炫,是比谁在日常使用中翻车更少、干活更稳。
#How I AI##科技先锋官#
