Claude 4.6正式发布

传言已久的 Claude 4.6 正式发布了，主打定向优化，目标是让模型在复杂任务上走得更深、撑得更久。

核心改进集中在代码能力。模型处理大型代码库更可靠，调试和代码审查表现更好。Anthropic 说他们工程师每天都用 Claude Code 写代码，升级后模型在复杂任务上更专注，简单任务处理更快，长时间工作也能保持状态。

另一个重要变化是 Opus 系列首次支持 100 万 Token 上下文窗口（beta 阶段），并解决了长期困扰用户的 “上下文衰减” 问题。在 MRCR v2 长文本检索测试里，Opus 4.6 拿到 76%，之前的 Sonnet 4.5 只有 18.5%。（图2）

从这些改进可以看出 Anthropic 的战略选择明显是在押注 “工作流深度” 而非 “能力广度”。百万级上下文、上下文压缩、Agent Teams，这些都指向同一方向，让 Claude 从 “问答助手” 变成 “能独立干活的同事”。这跟 OpenAI 主推的多模态路线有明显分野。Anthropic 似乎认为，让模型 “把一件事做完整” 比 “会更多种类的事” 更有商业价值。

基准测试方面，Opus 4.6 在 Terminal-Bench 2.0（智能体编程，图3）和 Humanity's Last Exam（多学科推理，图4）上都是最高分，在知识工作能力测试 GDPval-AA 上比第二的 GPT-5.2 高出约 144 Elo。（图5）

Anthropic 这次反复强调的是 Claude 4.6 的规划、多步执行、长时间自主运行这些 Agentic 能力，几乎没提基础知识或常识推理的进步。我觉得，这更像是 “应用层” 的优化而非底层智能的跃升。因此，对期待通用智能方面有所突破的人来说不会那么兴奋。

API 层面有几个新功能值得关注。“自适应思考” 让模型能够自己判断何时需要深度推理。“上下文压缩” 能自动总结早期对话，让长任务不会被上下文限制。而且这次 Claude 4.6 和 GPT-5.2 一样，也增加了四档 “努力程度”。Anthropic 自己承认 Opus 4.6 有时会 “想太多”，在简单问题上增加不必要的延迟和成本。因此，把选择权交给开发者和普通用户。

对新版模型，Cursor、GitHub、Notion、Replit、Windsurf 等都给出了正面评价，集中在模型能更自主完成复杂任务这一点。Cursor 的 CEO 表示这是 “几个月来最大的飞跃”。但这次为新模型站台的，几乎清一色的开发工具公司，加上 Harvey（法律）、Thomson Reuters、Box 等企业服务商。Anthropic 明显在和 OpenAI 走差异化竞争的道路，不是在跟 ChatGPT 抢普通用户，而是在 B2B 和开发者生态深耕，或许赌的是，企业级 AI 智能体会比消费级聊天机器人先成熟。

安全方面也有微妙转变。以前 Anthropic 谈安全更多是 “我们的模型不会做坏事”，这次更进一步，加了针对性防护（如六个新的网络安全探针），而且还用它帮开源社区找漏洞。

Claude 4.6 定价不变，每百万输入 Token $5，输出 $25。超 20 万 Token 的长上下文请求有溢价。

总的来说，这次 Claude 升级，功能点是在收敛，但定位清晰、定价稳定。相比去年各家大厂在谈的 AGI（通用人工智能）、ASI（超人工智能）这些宏大叙事。Anthropic 追求的这种 “把代码和长上下文做透” 明显更为务实！

#AI技术[超话]##Anthropic发布Claude4.6##科技先锋官#

发布于上海