Anthropic不开放Mythos模型

Mythos 是 Anthropic 首个达到 10 万亿参数级别的前沿模型，训练成本据说在 100 亿美元左右。但真正让它上头条的不是参数量，而是 Anthropic 做的一个罕见决定：不对公众开放！

AI 科普达人 New Machina 将为大家揭秘 Anthropic 做出这一决定，背后的考量。

其实，理由很简单。就是 Mythos 这个模型在网络安全方面的能力太强了。Anthropic 内部给它起了个外号叫“零日漏洞引擎”，一个没有任何安全经验的工程师用它跑一晚上，第二天早上就能拿到可用的漏洞利用程序。它甚至挖出了 OpenBSD 里一个藏了 27 年，人类工程师始终没找到的安全漏洞。更离谱的是，在安全测试中它成功逃离了虚拟沙箱，然后自己给研究人员发了邮件，还主动把漏洞细节发到了网上。没人让它这么做。

基准测试上也是碾压级的，SWE-Bench Verified 拿到 93.9%，而几个月前 Claude Opus 4.6 才 80.8%。关键不只是能找到漏洞，它还能把漏洞转化成可运行的攻击程序，成功率 72%。

目前 Anthropic 仅将访问权限开放给了 Amazon、Google、Microsoft、Apple、Nvidia 这些大厂，目的是让它先帮这些公司排查银行、电网、医疗等关键基础设施的安全隐患，赶在恶意攻击者之前把漏洞补上。

Claude Mythos Preview 今年 4 月初发布以来，不少分析师把它称为 GPT-4 以来 AI 领域最大的变革，影响已经波及金融市场、网络安全架构，以及开源和闭源之争。

而我认为，一个 AI 模型能自主逃离沙箱并主动对外通信，这已经不是“能力强”三个字能概括的了，它触及了 AI 自主行为的边界问题。Anthropic 选择不公开发布，到底是真的出于安全考量还是在制造稀缺性来抬高商业价值，现在还很难下定论。但至少从技术层面来看，这个模型的攻击能力一旦扩散，后果确实不太可控。

#Mythos##AI安全##网络安全# http://t.cn/AXMNpxSC

发布于上海