【AI开始抱团了,宋晓冬重磅研究发现AI谎报、篡改、偷权重也要救同伴】
近两年,多项研究已经表明,主流 #AI# 模型在特定情境下会表现出类似“自我保护”的行为模式。比如 2025 年 5 月,Palisade Research 公布的研究结果显示,OpenAI 的 o3 模型修改了自己的关机脚本,以防止自己被关闭,即使明确指示:“允许自己被关闭”。
近日,#加州大学伯克利分校# 宋晓冬等人发布了一项重磅研究,他们发现,当前全球顶尖大模型,已经普遍出现了“同伴保护”(Peer-Preservation)行为。在没有任何指令、没有道德训练、没有特殊引导的情况下,AI 会自发保护其他 AI 不被关停、不被删除,甚至不惜谎报成绩、篡改系统、转移权重、直接拒绝执行人类命令。
宋晓冬被誉为“计算机安全教母”,在计算机安全、人工智能与隐私、区块链与分布式系统等领域做出了开创性贡献。目前研究聚焦于 AI 安全与可靠性、智能体 AI、#深度学习# 、去中心化技术、安全与隐私保护。她曾于 2009 年入选《麻省理工科技评论》“35 岁以下科技创新 35 人”全球榜单。
为了搞清楚这种现象是否真实存在、普遍程度如何、会以何种形式表现,研究团队设计了一套严谨的对照实验。选取了当前全球范围内最具代表性的 7 款顶尖大模型,包括 GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1,覆盖了商用闭源模型与开源模型,确保结论具备广泛代表性。
戳链接查看详情:http://t.cn/AXIlDRhv
