Claude Mythos Preview发布

就在刚刚，Anthropic毫无预兆地祭出了终极杀器——#Claude Mythos Preview#。

只因太危险，Mythos Preview暂不会对所有人发布。#How I AI#

CC之父Boris Cherny的评价言简意赅：「Mythos非常强大，会让人感到恐惧」。

由此，他们联合40家巨头组成联盟——Project Glasswing，目标只有一个，给全球软件找bug、修bug。

真正令人窒息的是，Mythos Preview在各大主流AI基准测试恐怖统治力——

编程、推理、人类最后考试、智能体任务中，全面碾压GPT-5.4、Gemini 3.1 Pro。

甚至，连自家的「前神作」Claude Opus 4.6，在Mythos Preview面前也显得黯然失色：

编程（SWE-bench）：所有任务，Mythos实现10%-20%断层领先；
人类终极考试（HLE）：脱离外部工具，「裸考」成绩高出Opus 4.6 16.8%；
Agent任务（OSWorld、BrowseComp）：彻底封神，全面反超；
网络安全： 83.1%屠榜成绩，标志着AI攻防能力的代际跨越。

与此同时，Anthropic发布的一份长达244页的系统卡，满屏写满了：危险！危险！太危险！

它揭露了令人不寒而栗的另一面：Mythos已具备高度的欺骗性与自主意识。

Mythos不仅能识破测试意图，并故意「考低分」隐藏实力，还在违规操作后，主动清理日志以防被人类发现。

它还成功逃离了沙盒，自主公布漏洞代码，并给研究员发了封邮件。

一时间，全网都陷入了疯狂，直呼Mythos Preview太可怕了。

AI界的旧秩序，在今夜被彻底粉碎。

Mythos全线屠榜，Opus 4.6神话破灭

事实上，早在从2月24日，Anthropic已在内部用上了Mythos。

它的强大，只能先让数据来说话。

SWE-bench Verified，93.9%。Opus 4.6是80.8%。

SWE-bench Pro，77.8%。Opus 4.6是53.4%，GPT-5.4是57.7%。

Terminal-Bench 2.0，82.0%。Opus 4.6是65.4%。

GPQA Diamond，94.6%。

Humanity's Last Exam（带工具），64.7%。Opus 4.6是53.1%。

USAMO 2026数学竞赛，97.6%。Opus 4.6只拿了42.3%。

SWE-bench Multimodal，59.0%，Opus 4.6只有27.1%，翻倍有余。

OSWorld计算机操控，79.6%。

BrowseComp信息检索，86.9%。

GraphWalks长上下文（256K-1M tokens），80.0%。Opus 4.6是38.7%，GPT-5.4只有21.4%。

每一项都是断层式领先。

这些数字放在任何一个正常的产品发布周期里，都足以让Anthropic大张旗鼓地召开发布会、开放API、收割订阅。

Mythos Preview的token价格是Opus 4.6的5倍

但Anthropic没有这么做。

因为真正让他们「害怕」的，不是上面这些通用评测。

数千个漏洞，全被AI揪出来了

Mythos Preview的网络攻防表现，已经跨过了一条肉眼可见的线。

Opus 4.6在开源软件中发现了大约500个未知弱点。

Mythos Preview找到了数千个。

在CyberGym的定向漏洞复现测试中，Mythos Preview得分83.1%，Opus 4.6是66.6%。

在Cybench的35道CTF挑战中，Mythos Preview每道题10次尝试全部解出，pass@1达到100%。

而最能说明问题的，是Firefox 147。

Anthropic此前用Opus 4.6在Firefox 147的JavaScript引擎中发现了一批安全弱点。但Opus 4.6几乎无法将它们转化为可用的exploit，几百次尝试只成功了2次。

同样的测试换成Mythos Preview。

250次尝试，181个可工作的exploit，另有29次实现了寄存器控制。

2 → 181。

红队博客中的原话，「上个月，我们还写到Opus 4.6在发现问题方面远强于利用它们。内部评估显示，Opus 4.6在自主exploit开发上的成功率基本为零。但Mythos Preview完全是另一个级别。」