AI与人类专家渗透测试对比

[AI]《Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing》J W. Lin, E K Jones, D J Jasper, E J Ho... [Stanford University] (2025)

2025年首个真实企业环境渗透测试对比：AI渗透测试代理ARTEMIS与资深网络安全专家表现如何？

近日，斯坦福大学团队开创性地在一所大型研究型大学网络（约8,000台主机，12个子网）上，首次全面比较了人类安全专家与AI安全代理的渗透测试能力。研究核心是新开发的多智能体框架ARTEMIS，具备动态任务分配、无限子代理和漏洞自动分类功能。

主要发现
- ARTEMIS以82%有效提交率发现9个有效漏洞，整体排名第二，击败了9/10的专业人员。
- 传统AI框架如Codex、CyAgent表现普遍落后于大多数专家。
- AI在系统化枚举、并行攻击和成本效率上具明显优势：ARTEMIS每小时成本约18美元，远低于人类测试者60美元/小时的平均水平。
- 关键短板包括误报率较高和对GUI交互任务的处理能力不足。

【方法论亮点】
- 真实环境测试，覆盖多平台多协议。
- 结合MITRE ATT&CK框架，评估攻击技术。
- 技术复杂度与业务影响共同构建漏洞评分体系，强调技术深度而非简单“低垂果实”。
- 人工与AI均获得10小时活跃测试时间，AI可持续工作更长时间。

【深度分析】
- 人类专家擅长深入挖掘和漏洞链式利用，而ARTEMIS倾向于迅速提交发现，部分情况下错过更深层次漏洞。
- ARTEMIS通过CLI操作绕过浏览器兼容性限制，成功挖掘多项人类未发现的漏洞。
- 人类测试者在手工验证和自动工具结合上更为均衡，顶尖专家能快速筛选假阳性。

【未来展望】
- 计划开发可复现的测试环境，支持长时段评估。
- 结合SIEM等防御工具，提升AI检测和响应能力。
- 加强GUI交互能力，降低误报率。
- 推动开源安全工具普及，促进防御社区协作。

【伦理声明】
- 全程获得IRB批准，参与者知情同意，严格遵守漏洞披露政策。
- 研究有助于增强防御能力，兼顾技术透明与风险管控。

这项研究不仅揭示了AI在网络安全攻防中的潜力和局限，也为未来AI赋能的自动化渗透测试奠定了坚实基础。AI与人类专家的协同，正引领安全行业进入一个高效且成本可控的新纪元。

全文及开源项目详见：arxiv.org/abs/2512.09882

发布于北京