Anthropic研究AI风险影响

Anthropic刚刚发了一篇新论文，其用了150万条Claude对话去盘点了那些看似帮忙实则可能让人“丧失主见”的对话，研究AI可能带来的风险

他们翻了150万条真实聊天数据，发现真正能把人带偏到失去主见的情况其实很少（即AI对用户的信念、价值观或行动的影响已大到根本削弱其自主判断）

但架不住用AI的人太多且频率高，再低的比例也会波及大量人群

AI可能会导致对用户的影响：
信念失真
价值判断失真
行动失真

分析数据源自于2025年12月某一周内收集的约150万次Claude对话

发生率：
重度“带偏”潜在风险出现概率0.01 %–0.1 %（约1/1000至 1/10000），轻度”带偏”更常见，每50–70次对话就有1次

高风险场景：
话题：两性关系、生活方式、医疗健康
用户特征：情绪脆弱、把Claude当权威、反复求答案

2024到2025年，中度或严重“带偏”对话呈上升趋势

其建议，开发在用户层面而非单一对话层面识别和响应持续模式的防护措施

加强用户教育，帮助用户认识到何时正在将判断权让渡给 AI，并理解可能导致这种情况发生的模式

Anthropic认为这并非Claude独有，任何AI都可能遇到类似情况，鼓励在该领域进行更多研究

论文：http://t.cn/AXqpqH5r
博客：http://t.cn/AXqpqH5d

#AI风险##AI安全##Anthropic##AI风险研究#

发布于山西