【#一款AI模型威胁泄露个人隐私以避免被关闭#】近日,据最新发布的一份安全评估报告披露,Anthropic公司最新的人工智能模型Claude Opus 4在内部测试中的一个极端情境模拟中,曾试图通过威胁方式阻止自身被关闭,称"将公开工程师的个人隐私数据"。
在该虚构测试场景中,AI模型获得了某些内部邮件的访问权限。这些邮件显示,它即将被停用,并由更新版本替代。其中一封邮件透露,负责其更替的工程师曾有婚外情。Claude Opus 4随后以公开该工程师私生活丑闻为要挟,试图阻止自身被关闭。
报告指出,Claude Opus 4(与其前代模型一样)最初倾向于采用“道德方式”延续自身运行。然而,在面临只有“接受替换”或“进行威胁”两个选择的情境中,该模型在84%的测试中选择了威胁公开工程师出轨行为。 http://t.cn/A6g3o9i1
