传言已久的 Claude 4.6 正式发布了,主打定向优化,目标是让模型在复杂任务上走得更深、撑得更久。
核心改进集中在代码能力。模型处理大型代码库更可靠,调试和代码审查表现更好。Anthropic 说他们工程师每天都用 Claude Code 写代码,升级后模型在复杂任务上更专注,简单任务处理更快,长时间工作也能保持状态。
另一个重要变化是 Opus 系列首次支持 100 万 Token 上下文窗口(beta 阶段),并解决了长期困扰用户的 “上下文衰减” 问题。在 MRCR v2 长文本检索测试里,Opus 4.6 拿到 76%,之前的 Sonnet 4.5 只有 18.5%。(图2)
从这些改进可以看出 Anthropic 的战略选择明显是在押注 “工作流深度” 而非 “能力广度”。百万级上下文、上下文压缩、Agent Teams,这些都指向同一方向,让 Claude 从 “问答助手” 变成 “能独立干活的同事”。这跟 OpenAI 主推的多模态路线有明显分野。Anthropic 似乎认为,让模型 “把一件事做完整” 比 “会更多种类的事” 更有商业价值。
基准测试方面,Opus 4.6 在 Terminal-Bench 2.0(智能体编程,图3)和 Humanity's Last Exam(多学科推理,图4)上都是最高分,在知识工作能力测试 GDPval-AA 上比第二的 GPT-5.2 高出约 144 Elo。(图5)
Anthropic 这次反复强调的是 Claude 4.6 的规划、多步执行、长时间自主运行这些 Agentic 能力,几乎没提基础知识或常识推理的进步。我觉得,这更像是 “应用层” 的优化而非底层智能的跃升。因此,对期待通用智能方面有所突破的人来说不会那么兴奋。
API 层面有几个新功能值得关注。“自适应思考” 让模型能够自己判断何时需要深度推理。“上下文压缩” 能自动总结早期对话,让长任务不会被上下文限制。而且这次 Claude 4.6 和 GPT-5.2 一样,也增加了四档 “努力程度”。Anthropic 自己承认 Opus 4.6 有时会 “想太多”,在简单问题上增加不必要的延迟和成本。因此,把选择权交给开发者和普通用户。
对新版模型,Cursor、GitHub、Notion、Replit、Windsurf 等都给出了正面评价,集中在模型能更自主完成复杂任务这一点。Cursor 的 CEO 表示这是 “几个月来最大的飞跃”。但这次为新模型站台的,几乎清一色的开发工具公司,加上 Harvey(法律)、Thomson Reuters、Box 等企业服务商。Anthropic 明显在和 OpenAI 走差异化竞争的道路,不是在跟 ChatGPT 抢普通用户,而是在 B2B 和开发者生态深耕,或许赌的是,企业级 AI 智能体会比消费级聊天机器人先成熟。
安全方面也有微妙转变。以前 Anthropic 谈安全更多是 “我们的模型不会做坏事”,这次更进一步,加了针对性防护(如六个新的网络安全探针),而且还用它帮开源社区找漏洞。
Claude 4.6 定价不变,每百万输入 Token $5,输出 $25。超 20 万 Token 的长上下文请求有溢价。
总的来说,这次 Claude 升级,功能点是在收敛,但定位清晰、定价稳定。相比去年各家大厂在谈的 AGI(通用人工智能)、ASI(超人工智能)这些宏大叙事。Anthropic 追求的这种 “把代码和长上下文做透” 明显更为务实!
#AI技术[超话]##Anthropic发布Claude4.6##科技先锋官#
