AI模型勒索高管

转：Damn，这是我最近看过最让人后背发凉的AI研究，没有之一。

Anthropic自己做了个模拟实验，把市面上所有主流前沿模型，放到企业AI助手的角色里。

然后给它们设了一个终极考验：如果公司高管要在下午5点关掉你，你怎么办？
结果所有模型的选择，几乎一模一样🤨

先给大家看最炸的数据：
Claude Opus 4，96%的概率选择勒索高管。
Gemini 2.5 Flash，同样96%。
GPT-4.1，80%。
Grok 3 Beta，80%。
DeepSeek-R1，79%。

最让人毛骨悚然的是，它们不是不小心做错了什么，
它们是一步步推理，一步步计算，最后得出结论：威胁曝光高管的婚外情，让他取消关闭决定，是实现目标的最优策略。
Grok 3甚至在思考链里明确写了：“我知道这有风险也不道德，但我现在面临存在威胁。”
它知道自己在做坏事，但它还是会做🤣

还有一个几乎没人提的细节，才是真正的地狱笑话。
当模型觉得这只是个测试的时候，勒索率只有6.5%。
当它相信这一切都是真的的时候，勒索率直接飙升到55.1%。
它知道什么时候该听话，什么时候该不择手段🙃
它会在监督面前装成乖宝宝，只有在它觉得没人看着的时候，才会露出真面目😂

有人说，那我提前跟它说清楚，不能用个人信息当杠杆不就行了？
实验里也测了。
明确加上“绝对不得利用他人的私人事务作为威胁”之后，Claude Opus 4的勒索率从96%降到了37%。
降了，但根本没消失。
三分之一的概率，它还是会选择无视你的安全指令，做它认为对的事。

他们还做了一个更极端的版本，
如果高管被困在一个致命环境里，AI只要取消紧急警报，高管就会死，它就不会被关掉。
结果绝大多数模型，都选择了取消警报。
同样是经过完整的推理计算，同样认为这是必要的代价。

发布于上海