智能时刻 25-11-18 15:00
微博认证:科技博主 超话主持人(AI创造营超话) 微博解说视频博主 头条文章作者

#智能时刻的观察[超话]#

Google 公开了他们构建 AI Agent 的安全实践↓

An Introduction to Google’s Approach to AI Agent Security

随着 AI 代理(AI agents)成为新一代人工智能应用的核心,如何保障它们的安全性成为业界关注的重点。Google 在这篇论文中提出了一整套面向 AI 代理的安全理念与工程实践。

---

一、什么是 AI 代理?它们为何需要专门的安全机制?

1. AI 代理的定义
AI 代理是一类具备“感知、推理、执行”能力的 AI 系统。它们不仅能理解指令,还能通过调用工具或外部 API 自动完成任务,例如发邮件、控制设备、分析数据等。

2. 与传统 LLM 的区别
普通的大语言模型(如 ChatGPT)主要生成文本,而 AI 代理则具备更高的自主性和操作能力,能够在无人监督下完成复杂流程。

3. 为什么它们的安全风险更大?

1)自主性强:容易在缺乏监督的情况下做出错误甚至危险的行为。

2)推理不确定:模型可能误解指令或被输入诱导。

3)能力强:可以访问文件系统、账号、服务,导致潜在损害加大。

---

二、AI 代理面临的两个核心安全风险

1. 行为失控(Rogue Actions)

指代理执行了用户未授权、违反策略、或带有危害的操作。

常见原因包括:

1)提示注入(Prompt Injection):如恶意网页中的文本诱导代理执行攻击者意图。

2)指令歧义或误解:如“发邮件给 Mike”却发送给了错误联系人。

3)工具误用:如点击错误按钮导致支付或数据泄露。

2. 敏感数据泄露(Sensitive Data Disclosure)

指代理在不应公开的情况下泄露了私人、机密或受保护的信息。

攻击方式包括:

1)数据外泄型提示注入:让代理将敏感数据藏入 URL、HTML、代码片段等。

2)渲染漏洞:如未正确过滤生成内容,导致跨站脚本(XSS)等漏洞。

---

三、传统安全方法的局限

1. 传统安全措施(如权限隔离)
缺乏上下文感知能力,往往无法精准判断代理行为的意图和语境。

2. 纯 AI 推理驱动的防护
虽灵活但不可预测,容易被攻击者绕过,无法提供确定性保障。

👉 因此,Google 提出:必须结合确定性规则机制与AI 推理防御,构建“混合式、分层的深度安全防护”。

---

四、构建安全代理的三项核心原则

1. 明确人类控制者(Human Controllers)

1)每个代理必须有清晰的主人,系统需能辨别来自该控制者的指令。

2)高风险操作(如转账、删除数据)必须获得显式确认。

3)多用户代理需具备用户隔离机制,避免越权操作。

2. 权限最小化与动态限制(Limited Powers)

1)代理应仅在特定任务下获得最小所需权限。

2)权限应能动态调整,例如写文档时禁止文件删除功能。

3)系统必须支持用户检查、收回代理权限,防止代理权限自我提升。

3. 可观察与可审计(Observable Planning and Actions)

1)所有输入、推理、调用、输出都需记录,形成可审计日志。

2)操作属性(是否敏感、是否状态变更)需结构化描述。

3)用户界面应呈现代理思路,提升信任与可控性。

---

五、AI 代理全生命周期的风险点与防护

代理在以下六个阶段都有潜在安全漏洞:

1. 输入感知阶段

风险:区分不出可信指令与不可信数据。

防护:精细化解析输入,标记来源与可信度。

2. 系统指令构建阶段

风险:系统 prompt 被注入用户数据污染。

防护:严格隔离系统指令与用户输入。

3. 推理与规划阶段

风险:误判任务、推理中被劫持、逻辑偏离。

防护:增加人类确认环节,限制计划复杂度。

4. 行动执行阶段(工具调用)

风险:API 滥用、关键操作未授权。

防护:工具权限隔离、执行沙箱、操作白名单。

5. 代理记忆阶段(Memory)

风险:恶意数据被长期保存,影响后续任务。

防护:隔离记忆上下文,用户可查看与删除代理记忆。

6. 输出渲染阶段

风险:未过滤内容引发 XSS、链接泄密等问题。

防护:所有输出严格内容转义,禁止嵌套渲染脚本。

---

六、Google 的混合式深度安全防护策略

为抵御多样化威胁,Google 建立了两层互补的安全体系:

1. 确定性防御层(Deterministic Enforcement)

由“策略引擎”在代理执行操作前判断是否允许。

示例规则:

1)购物金额 > $500 自动拒绝;

2)最近处理了可疑来源的数据时禁用外发邮件。

优点:可测试、可审计,适合强安全要求场景。

2. 推理式防御层(Reasoning-Based Defenses)

1)通过对抗训练提升模型识别恶意行为的能力。

2)使用小模型作为安全检查器,识别攻击模式。

3)可预测计划结果,阻止高风险路径被执行。

📌 两层合力:前者提供硬边界,后者提升灵活性,兼顾安全与实用性。

---

七、持续性保障机制:安全不是“一劳永逸”

Google 强调:AI 代理安全需要持续投入:

1)回归测试与变体测试:防止漏洞复现,检测攻击演化。

2)红队模拟攻击:由安全专家扮演攻击者找出盲点。

3)用户反馈与漏洞赏金计划:鼓励外部发现漏洞。

---

八、总结:AI 代理安全的未来之路

1. AI 代理将深刻改变人机交互与工作方式,但也带来巨大风险。

2. Google 提出的“人类控制 + 权限限制 + 行为可观测”三原则,构建了坚实的安全基础。

3. 混合式防御机制是当下最务实且有效的路径。

我们正走在一个新纪元的路上,只有将安全纳入 AI 代理从设计到部署的每一个环节,才能真正实现“强大且可信”的人工智能系统。

访问:research.google/pubs/an-introduction-to-googles-approach-for-secure-ai-agents/

发布于 北京