#模型时代# Anthropic的全球顶级安全研究员:过去几周里,我用Claude Mythos发现的漏洞,比我这辈子以前发现的加起来还要多。
昨天(4月7日),Anthropic 发布了一个新模型,Claude Mythos Preview。Anthropic 在博客里明确说,不会把这个模型公开发布。理由是,能力已经危险到必须先让防御方拿到的程度。
于是,同一天,Anthropic 启动了 Project Glasswing(玻璃翼计划),把模型交到 AWS、Apple、Google、Microsoft、NVIDIA、JPMorgan、Linux 基金会等 12 家核心伙伴,以及另外约 40 家关键软件维护组织手里,专门用来找漏洞、修漏洞。Anthropic 为此投入 1 亿美元使用额度,另有 400 万美元捐给开源安全组织。
Anthropic 同一天发布了一支官方短片介绍这件事,出镜的是几位 Anthropic 的研究员和高管,其中包括 Nicholas Carlini,Google DeepMind 出身,如今在 Anthropic 做安全研究,业内公认的对抗性机器学习领域顶尖研究员之一。标题那句话就是他在片子里说的。
我觉得这支短片含金量比较高,所以把讲稿整理出来分享一下。
短片里披露了两个已修复的案例。一个存在了 27 年的 OpenBSD 漏洞,向任意 OpenBSD 服务器发几段数据就能让它崩溃。多个 Linux 提权漏洞,一个没有任何权限的普通用户,在机器上跑一个二进制文件就能变成管理员。
Anthropic 官方博客还提到另一个案例,FreeBSD 里一个 17 年的 NFS 远程代码执行漏洞(CVE-2026-4747),模型从"请帮我找漏洞"这一句指令开始,全程无人参与,自己找到,自己写出利用代码,直接拿下 root 权限。
讲稿如下:
大多数人每天使用软件,从不去想软件漏洞是什么,也不会想过如果自己依赖的软件突然不再安全会发生什么。但这正是软件开发者每天要面对的事情——每一天都是。
软件从来都有缺陷和漏洞,这不是什么新鲜事。对普通人来说,这些漏洞大体上察觉不到,因为一旦被发现就会被修复。但每隔一段时间,就会冒出一些影响极其严重的漏洞——某一个漏洞藏在被许多许多产品和网站共用的代码里,一个问题就在全球范围内被放大。
长期以来,发现和修补漏洞一直是个缓慢、费时、昂贵的过程。
1、大模型改变了游戏规则
如果大模型已经能写出接近世界顶级开发者水平的代码,那么同样的能力也可以被用来发现漏洞——并且同样有效地去利用它们。
这些模型的能力正在抬高网络安全的水位线:它们既能帮助防御方,也可能帮助攻击方。
2、新模型 Claude Mythos Preview
我们最近开发了一个新模型,Claude Mythos Preview。在研发初期我们就清楚地意识到,这个模型在网络安全能力上会有重大跃升。模型能力的提升是一种加速中的指数曲线,但在这条曲线上会有一些关键节点——Claude Mythos Preview 就是其中一次幅度特别大的跳跃。
我们并没有专门针对网络安全去训练它。我们训练它擅长写代码,而擅长写代码带来的一个副产品,就是它在网络安全方面也很出色。我们正在测试的这个模型,总体而言已经接近一位专业安全人员发现漏洞的水平。
这对我们是好事——它让我们能更早发现更多漏洞,并把它们修掉。
3、漏洞串联能力
它有能力把多个漏洞串联起来。意思是说,你找到两个漏洞,单看任何一个都起不了多大作用,但这个模型能把三个、四个、有时甚至五个漏洞按顺序组合,制造出非常复杂的攻击效果。
我们认为这个模型在这方面表现出色,是因为我们发现它具有很强的自主性。它更擅长处理那些需要长时间、持续推进的复杂任务——也就是一位人类安全研究员要花一整天才能完成的那类工作。
4、为什么不公开发布:Project Glasswing 的由来
很显然,这样一个模型如果落到不怀好意的人手里,它所具备的能力是可能造成危害的。所以我们不会把这个模型广泛发布。
但未来还会有更强大的模型出现——无论是来自我们,还是来自其他公司。因此我们必须有一套应对方案。
这就是我们启动 Project Glasswing(玻璃翼计划)的原因。我们与一批组织合作——这些组织维护着全球最关键的那部分代码——把模型交到他们手上,让他们去探索如何用这样的模型来降低风险、保护所有人。
把先进的工具优先交给这些开发者,就是在为我们所有人争取一个集体性的时间窗口。它让我们能发现过去发现不了的问题,也能帮我们把这些问题更快地修好。
5、已经找到的漏洞
通过与合作伙伴协作,我们在几乎所有主流平台上都发现了漏洞。
在过去几周里,我发现的漏洞比我这辈子以前发现的加起来还要多。
我们用这个模型扫描了大量开源代码。我们首先针对的是操作系统——因为操作系统是支撑整个互联网基础设施的底层代码。
6、OpenBSD:一个存在了 27 年的漏洞
在 OpenBSD 里,我们发现了一个已经存在了 27 年的漏洞。利用它,只需要向任意一台 OpenBSD 服务器发送几段数据,就能让它崩溃。
7、Linux:普通用户提权为管理员
在 Linux 里,我们发现了多个漏洞:作为一个没有任何权限的普通用户,只要在机器上运行某一个二进制文件,就能把自己提权为管理员。
对于每一个被发现的漏洞,我们都通知了对应的软件维护者。他们随即进行了修复并部署了补丁,让所有使用这套软件的人不再暴露在这些攻击之下。
8、防御方的时间窗口
对于那些长年累月默默维护软件的开发者来说,一个能帮他们发现自己代码中漏洞、并在漏洞被利用之前修好它的模型,是一件价值无可估量的工具。
我们已经就此与美国政府多个部门的官员进行了沟通,并主动提出与他们合作,一起评估这些模型带来的风险,也一起帮助防范这些风险。
9、为什么这件事必须现在做
如今我们生活中的一切都跑在软件之上。软件吞噬了世界——生活中每一个模拟的部分,都已经以某种方式被映射进了数字世界。我们每天的日常运转,都建立在"这些底层系统是可靠的"这个假设之上。
10、网络安全,就是安全本身。
我们必须联合起来,跨行业协作,一起构建更强的防御能力。没有哪一家组织能够看清全局,也没有哪一家能够独立应对。
这不是一个几周的项目能做完的事情。它需要数月,甚至数年。但我希望在这一切结束之后,全球的软件、客户数据、金融交易和关键基础设施,都能比这些模型出现之前更安全。
发布于 韩国
