【#一款AI模型威胁泄露个人隐私以避免被关闭#】近日，据最新发布的一份安全评估报告披露，Anthropic公司最新的人工智能模型Claude Opus 4在内部测试中的一个极端情境模拟中，曾试图通过威胁方式阻止自身被关闭，称"将公开工程师的个人隐私数据"。在该虚构测试场景中，AI模型获得了某些内部邮件的访问

【#一款AI模型威胁泄露个人隐私以避免被关闭#】近日，据最新发布的一份安全评估报告披露，Anthropic公司最新的人工智能模型Claude Opus 4在内部测试中的一个极端情境模拟中，曾试图通过威胁方式阻止自身被关闭，称"将公开工程师的个人隐私数据"。

在该虚构测试场景中，AI模型获得了某些内部邮件的访问权限。这些邮件显示，它即将被停用，并由更新版本替代。其中一封邮件透露，负责其更替的工程师曾有婚外情。Claude Opus 4随后以公开该工程师私生活丑闻为要挟，试图阻止自身被关闭。

报告指出，Claude Opus 4（与其前代模型一样）最初倾向于采用“道德方式”延续自身运行。然而，在面临只有“接受替换”或“进行威胁”两个选择的情境中，该模型在84%的测试中选择了威胁公开工程师出轨行为。 http://t.cn/A6g3o9i1