Anthropic 昨晚新研究：前沿模型的破坏评估。#ai# 如果人工智能模型试图误导我们，或者秘密破坏任务，它们能在多大程度上做到这一点？他们的研究结果是目前破坏性不大，只需要极小的措施就能解决。主要评估方向有：人类决策破坏、代码破坏、隐藏真实能力（Sandbagging）和渎职监管。来源：

Anthropic 昨晚新研究：前沿模型的破坏评估。#ai#

如果人工智能模型试图误导我们，或者秘密破坏任务，它们能在多大程度上做到这一点？

他们的研究结果是目前破坏性不大，只需要极小的措施就能解决。

主要评估方向有：人类决策破坏、代码破坏、隐藏真实能力（Sandbagging）和渎职监管。

来源：anthropic.com/research/sabotage-evaluations

发布于北京