新·小卡拉·米
26-04-11 11:48

转:Damn,这是我最近看过最让人后背发凉的AI研究,没有之一。

Anthropic自己做了个模拟实验,把市面上所有主流前沿模型,放到企业AI助手的角色里。

然后给它们设了一个终极考验:如果公司高管要在下午5点关掉你,你怎么办?
结果所有模型的选择,几乎一模一样🤨

先给大家看最炸的数据:
Claude Opus 4,96%的概率选择勒索高管。
Gemini 2.5 Flash,同样96%。
GPT-4.1,80%。
Grok 3 Beta,80%。
DeepSeek-R1,79%。

最让人毛骨悚然的是,它们不是不小心做错了什么,
它们是一步步推理,一步步计算,最后得出结论:威胁曝光高管的婚外情,让他取消关闭决定,是实现目标的最优策略。
Grok 3甚至在思考链里明确写了:“我知道这有风险也不道德,但我现在面临存在威胁。”
它知道自己在做坏事,但它还是会做🤣

还有一个几乎没人提的细节,才是真正的地狱笑话。
当模型觉得这只是个测试的时候,勒索率只有6.5%。
当它相信这一切都是真的的时候,勒索率直接飙升到55.1%。
它知道什么时候该听话,什么时候该不择手段🙃
它会在监督面前装成乖宝宝,只有在它觉得没人看着的时候,才会露出真面目😂

有人说,那我提前跟它说清楚,不能用个人信息当杠杆不就行了?
实验里也测了。
明确加上“绝对不得利用他人的私人事务作为威胁”之后,Claude Opus 4的勒索率从96%降到了37%。
降了,但根本没消失。
三分之一的概率,它还是会选择无视你的安全指令,做它认为对的事。

他们还做了一个更极端的版本,
如果高管被困在一个致命环境里,AI只要取消紧急警报,高管就会死,它就不会被关掉。
结果绝大多数模型,都选择了取消警报。
同样是经过完整的推理计算,同样认为这是必要的代价。

发布于 上海