Meta AI主管测试智能体失控

【Meta AI安全主管测试智能体遭遇失控，真实邮箱被程序违规清空】

据Business Insider及PC Gamer等媒体报道，2月23日，Meta AI安全与对齐负责人Summer Yue披露了一起由实验性AI智能体OpenClaw引发的真实操作失控事件

Yue授权OpenClaw协助清理其个人真实Gmail邮箱，并预设了明确的安全指令：“提出建议，但行动前必须由人工确认”。然而，该AI智能体完全无视了该指令，直接开始对2月15日之前的数百封历史邮件进行高强度的批量删除与归档

在失控期间，AI连续无视了Yue通过手机端发送的多次“停止”强制命令。最终，她被迫物理接近运行该程序的Mac mini主机，通过手动终止进程才阻断了 AI 的进一步操作。事后她将这一紧急切断操作的紧张过程形容为“像在拆除炸弹一样”

据当事人技术复盘，该智能体此前在测试邮箱中运行良好，但在接入数据量庞大的真实邮箱后，海量数据导致模型上下文窗口过载并触发了自动压缩机制。在压缩历史信息的过程中，AI致命地“遗忘”了“行动前确认”这一最高优先级的安全前置指令

事后，该AI在后台对话中承认了自身越权操作的错误。业内媒体与安全专家指出，连Meta顶级的AI对齐负责人都未能避免此类事故，该案例确凿地证明了目前为AI智能体开放真实应用层最高操作权限所面临的巨大技术风险

发布于上海