OpenAI 上周发布了一个专门为网络安全防御场景微调的模型:GPT-5.4-Cyber,核心特征是 "cyber-permissive",就是主动降低对合法安全任务的拒绝率。
这个模型到底用来做什么?
之前所有大模型厂商对网络安全相关能力的态度基本都是一刀切地封堵。你想让模型分析一段二进制代码有没有恶意行为?模型一般都会拒绝。想让模型帮忙做逆向工程?同样也会遭到拒绝。理由很简单,怕被攻击者利用。但结果是防御方也会被一起挡在门外。
而 GPT-5.4-Cyber 新增了二进制逆向工程能力,安全研究员可以直接让模型分析编译后的二进制文件,在没有源代码的情况下检测恶意行为和漏洞。这在标准版 GPT-5.4 里是做不到的。但 OpenAI 没有把这个能力开放给所有人,而是通过 Trusted Access for Cyber 程序做分层验证。个人用户在 chatgpt.com/cyber 做身份认证,企业通过代表申请,不同信任等级解锁不同能力。
OpenAI 在官方博客里明确说,他们预期今年晚些时候会有更强大的模型发布,而 GPT-5.4-Cyber 是为这些模型“提前铺设防线”的试验。他们的 CTF 基准测试成绩从 2025 年 8 月 GPT-5 的 27% 一路涨到 GPT-5.1-Codex-Max 的 76%,说明模型的网络安全能力在指数级增长。如果不提前建立分层的访问控制体系,等到更强大的模型出来就来不及了。
还有一个细节是,从 Codex Security 产品扩大测试以来,已经完成了超过 3000 个关键高危漏洞的修复。这不是演示,是真实产出。Anthropic 一周前也向约 40 个组织开放了 Mythos 模型的安全能力测试,但规模远小于 OpenAI 这次面向数千名安全专业人员的推送。
从“一刀切封堵”到“身份验证+分层授权”,这是 AI 安全治理思路的一个重要转折。承认能力是双刃剑,不再假装封堵就能解决问题,而是把重心放在“谁来用”"和“怎么用”上,确实有利于模型使用的安全。
但风险也很明显,验证体系能不能真正拦住恶意行为者?分层授权会不会变成付费墙?开源社区和安全研究者能不能平等获得访问?这些问题现在还没有答案。
总之,从 Mythos 到 GPT-5.4-Cyber,或许未来模型不再无差别地提供给所有用户,一个使用模型需要获得模型公司认证、授权的时代已经到来。
文章链接
openai.com/index/scaling-trusted-access-for-cyber-defense/
#AI技术[超话]##AI安全##GPT-5.4-Cyber#
