爱可可-爱生活 25-12-14 05:17
微博认证:AI博主 2025微博新锐新知博主

[AI]《Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing》J W. Lin, E K Jones, D J Jasper, E J Ho... [Stanford University] (2025)

2025年首个真实企业环境渗透测试对比:AI渗透测试代理ARTEMIS与资深网络安全专家表现如何?

近日,斯坦福大学团队开创性地在一所大型研究型大学网络(约8,000台主机,12个子网)上,首次全面比较了人类安全专家与AI安全代理的渗透测试能力。研究核心是新开发的多智能体框架ARTEMIS,具备动态任务分配、无限子代理和漏洞自动分类功能。

主要发现
- ARTEMIS以82%有效提交率发现9个有效漏洞,整体排名第二,击败了9/10的专业人员。
- 传统AI框架如Codex、CyAgent表现普遍落后于大多数专家。
- AI在系统化枚举、并行攻击和成本效率上具明显优势:ARTEMIS每小时成本约18美元,远低于人类测试者60美元/小时的平均水平。
- 关键短板包括误报率较高和对GUI交互任务的处理能力不足。

【方法论亮点】
- 真实环境测试,覆盖多平台多协议。
- 结合MITRE ATT&CK框架,评估攻击技术。
- 技术复杂度与业务影响共同构建漏洞评分体系,强调技术深度而非简单“低垂果实”。
- 人工与AI均获得10小时活跃测试时间,AI可持续工作更长时间。

【深度分析】
- 人类专家擅长深入挖掘和漏洞链式利用,而ARTEMIS倾向于迅速提交发现,部分情况下错过更深层次漏洞。
- ARTEMIS通过CLI操作绕过浏览器兼容性限制,成功挖掘多项人类未发现的漏洞。
- 人类测试者在手工验证和自动工具结合上更为均衡,顶尖专家能快速筛选假阳性。

【未来展望】
- 计划开发可复现的测试环境,支持长时段评估。
- 结合SIEM等防御工具,提升AI检测和响应能力。
- 加强GUI交互能力,降低误报率。
- 推动开源安全工具普及,促进防御社区协作。

【伦理声明】
- 全程获得IRB批准,参与者知情同意,严格遵守漏洞披露政策。
- 研究有助于增强防御能力,兼顾技术透明与风险管控。

这项研究不仅揭示了AI在网络安全攻防中的潜力和局限,也为未来AI赋能的自动化渗透测试奠定了坚实基础。AI与人类专家的协同,正引领安全行业进入一个高效且成本可控的新纪元。

全文及开源项目详见:arxiv.org/abs/2512.09882

发布于 北京