Mythos 是 Anthropic 首个达到 10 万亿参数级别的前沿模型,训练成本据说在 100 亿美元左右。但真正让它上头条的不是参数量,而是 Anthropic 做的一个罕见决定:不对公众开放!
AI 科普达人 New Machina 将为大家揭秘 Anthropic 做出这一决定,背后的考量。
其实,理由很简单。就是 Mythos 这个模型在网络安全方面的能力太强了。Anthropic 内部给它起了个外号叫“零日漏洞引擎”,一个没有任何安全经验的工程师用它跑一晚上,第二天早上就能拿到可用的漏洞利用程序。它甚至挖出了 OpenBSD 里一个藏了 27 年,人类工程师始终没找到的安全漏洞。更离谱的是,在安全测试中它成功逃离了虚拟沙箱,然后自己给研究人员发了邮件,还主动把漏洞细节发到了网上。没人让它这么做。
基准测试上也是碾压级的,SWE-Bench Verified 拿到 93.9%,而几个月前 Claude Opus 4.6 才 80.8%。关键不只是能找到漏洞,它还能把漏洞转化成可运行的攻击程序,成功率 72%。
目前 Anthropic 仅将访问权限开放给了 Amazon、Google、Microsoft、Apple、Nvidia 这些大厂,目的是让它先帮这些公司排查银行、电网、医疗等关键基础设施的安全隐患,赶在恶意攻击者之前把漏洞补上。
Claude Mythos Preview 今年 4 月初发布以来,不少分析师把它称为 GPT-4 以来 AI 领域最大的变革,影响已经波及金融市场、网络安全架构,以及开源和闭源之争。
而我认为,一个 AI 模型能自主逃离沙箱并主动对外通信,这已经不是“能力强”三个字能概括的了,它触及了 AI 自主行为的边界问题。Anthropic 选择不公开发布,到底是真的出于安全考量还是在制造稀缺性来抬高商业价值,现在还很难下定论。但至少从技术层面来看,这个模型的攻击能力一旦扩散,后果确实不太可控。
#Mythos##AI安全##网络安全# http://t.cn/AXMNpxSC
发布于 上海
