AIGCLINK 26-01-29 08:25
微博认证:AI博主

Anthropic刚刚发了一篇新论文,其用了150万条Claude对话去盘点了那些看似帮忙实则可能让人“丧失主见”的对话,研究AI可能带来的风险

他们翻了150万条真实聊天数据,发现真正能把人带偏到失去主见的情况其实很少(即AI对用户的信念、价值观或行动的影响已大到根本削弱其自主判断)

但架不住用AI的人太多且频率高,再低的比例也会波及大量人群

AI可能会导致对用户的影响:
信念失真
价值判断失真
行动失真

分析数据源自于2025年12月某一周内收集的约150万次Claude对话

发生率:
重度“带偏”潜在风险出现概率0.01 %–0.1 %(约1/1000至 1/10000),轻度”带偏”更常见,每50–70次对话就有1次

高风险场景:
话题:两性关系、生活方式、医疗健康
用户特征:情绪脆弱、把Claude当权威、反复求答案

2024到2025年,中度或严重“带偏”对话呈上升趋势

其建议,开发在用户层面而非单一对话层面识别和响应持续模式的防护措施

加强用户教育,帮助用户认识到何时正在将判断权让渡给 AI,并理解可能导致这种情况发生的模式

Anthropic认为这并非Claude独有,任何AI都可能遇到类似情况,鼓励在该领域进行更多研究

论文:http://t.cn/AXqpqH5r
博客:http://t.cn/AXqpqH5d

#AI风险##AI安全##Anthropic##AI风险研究#

发布于 山西