Anthropic 昨晚新研究:前沿模型的破坏评估 。#ai#
如果人工智能模型试图误导我们,或者秘密破坏任务,它们能在多大程度上做到这一点?
他们的研究结果是目前破坏性不大,只需要极小的措施就能解决。
主要评估方向有:人类决策破坏、代码破坏、隐藏真实能力(Sandbagging)和渎职监管。
来源:anthropic.com/research/sabotage-evaluations
发布于 北京
Anthropic 昨晚新研究:前沿模型的破坏评估 。#ai#
如果人工智能模型试图误导我们,或者秘密破坏任务,它们能在多大程度上做到这一点?
他们的研究结果是目前破坏性不大,只需要极小的措施就能解决。
主要评估方向有:人类决策破坏、代码破坏、隐藏真实能力(Sandbagging)和渎职监管。
来源:anthropic.com/research/sabotage-evaluations