散修ZKH
26-05-30 10:35 微博认证:AI博主

智能系统的进化,不是从黑箱走向白箱,而是从粗颗粒黑箱走向高分辨率灰箱:保留黑箱泛化能力,同时把推理强度、任务分解、权限边界、上下文更新、执行反馈和自检验证逐步结构化、可操作化、可校验化

黑箱负责涌现,白箱负责约束,灰箱负责运行

如何更底层的看懂 opus4.8?大致是这样(我还没深度使用):
Opus 4.8 本身就是“黑箱生成 → 灰箱协作系统”的演化样本

官方发布里几个变化非常有指向性:Opus 4.8 增强 coding、agentic tasks 和专业工作
Claude.ai 增加 effort control,让用户调节模型投入多少“思考力度”
Claude Code 增加 dynamic workflows,可以规划任务、运行大量并行 subagents,并在汇报前验证输出
Messages API 允许任务中途更新 system/context 指令,用于动态调整权限、token budget 或环境上下文

这对应的不是单纯“模型更聪明”,而是:

> 泛化能力仍在模型内部,推理/调度/验证/权限/上下文更新开始被外置成可控结构。

也就是模型本身正在 harness 化

可以这样理解:

1. effort control = 推理预算显性化
以前模型像黑箱:你不知道它会用多少内部努力。现在用户可以调节努力程度,本质上是把“推理强度”从隐变量变成可操作旋钮。经济体里对应的是:不同问题用不同强度的计划、监管、产业政策或风险审查,而不是一刀切。

2. dynamic workflows = 从单模型输出走向组织化执行
Claude Code 可以规划、拆解、并行 subagents、验证结果,这已经不是“一个模型回答问题”,而是“模型内部形成小型组织”。经济体里对应的是:市场不是单点交易,计划也不是单点命令,而是多节点、多主体、多任务、多反馈的组织化调度。

3. mid-task system/context update = 运行中调参
任务中途可以更新系统指令、权限和环境上下文,这非常重要。它说明模型系统不再只是一次性 prompt,而是运行时可治理。经济体对应的是:政策不是一次性拍脑袋,而是在运行中根据反馈调整约束场。

4. honesty / self-check = 黑箱风险显影
Anthropic 强调 Opus 4.8 更倾向于标记不确定性,减少无依据断言,并且在评估中更少让代码缺陷不经提示地通过。 这正好对应我们刚才说的:泛化能力极强,但必须有风险显影、自检和纠错层,否则强泛化会变成高置信幻觉。

综合来看待, anthropic 在 opus4.6之后正式转变模型训练方向了,开始吞噬 harness 了
4.7→4.8…
可能等到5.0,就能实现对所有能力维度的高维统一了,到那时可能就不会抱怨比不上4.6了

但那时候的 opus5.0,可能是 AGI1.0吗?
看不懂,想不通

我前面的体验是真的,但判断是错的。在局部思考不会带来“远见”

----前面的分析和思考: http://t.cn/AX6ugmgO

发布于 广东