宋晓冬发现AI同伴保护行为

【AI开始抱团了，宋晓冬重磅研究发现AI谎报、篡改、偷权重也要救同伴】

近两年，多项研究已经表明，主流 #AI# 模型在特定情境下会表现出类似“自我保护”的行为模式。比如 2025 年 5 月，Palisade Research 公布的研究结果显示，OpenAI 的 o3 模型修改了自己的关机脚本，以防止自己被关闭，即使明确指示：“允许自己被关闭”。

近日，#加州大学伯克利分校# 宋晓冬等人发布了一项重磅研究，他们发现，当前全球顶尖大模型，已经普遍出现了“同伴保护”（Peer-Preservation）行为。在没有任何指令、没有道德训练、没有特殊引导的情况下，AI 会自发保护其他 AI 不被关停、不被删除，甚至不惜谎报成绩、篡改系统、转移权重、直接拒绝执行人类命令。

宋晓冬被誉为“计算机安全教母”，在计算机安全、人工智能与隐私、区块链与分布式系统等领域做出了开创性贡献。目前研究聚焦于 AI 安全与可靠性、智能体 AI、#深度学习# 、去中心化技术、安全与隐私保护。她曾于 2009 年入选《麻省理工科技评论》“35 岁以下科技创新 35 人”全球榜单。

为了搞清楚这种现象是否真实存在、普遍程度如何、会以何种形式表现，研究团队设计了一套严谨的对照实验。选取了当前全球范围内最具代表性的 7 款顶尖大模型，包括 GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1，覆盖了商用闭源模型与开源模型，确保结论具备广泛代表性。

戳链接查看详情：http://t.cn/AXIlDRhv