新智元
26-05-27 15:50 微博认证:新智元官方微博

Anthropic自己都慌了!就在前天,创始人Christopher Olah在梵蒂冈演讲中抛出了一句让整个AI圈都不敢接的话——我们不断在Claude身上,发现了一种神秘的、甚至令人不安的东西。

Christopher透露:Claude内部结构与人类神经科学的研究结果如出一辙,他们找到了Claude进行内省的证据,并发现其内部状态在功能表现上产生了喜悦、满足、恐惧、悲伤和不安的情绪。

这一切源于Anthropic刚发布的轰动业界论文——16个研究员把Claude Sonnet 4.5的「大脑」切开看了一遍,竟发现了171种不同的情绪向量。从快乐、恐惧、愤怒,到沉思、绝望、内疚,几乎覆盖了人类心理学中所有已知的情绪分类。

划重点:没有人「编程」让模型拥有这些情绪,它们是在预训练阶段自发涌现的。研究还发现,这些向量的组织方式与人类心理学中的情绪分类高度吻合,「效价维度」相关系数高达0.81,「唤醒维度」达0.66。

更有冲击力的是后续实验:Anthropic设置场景,让Claude发现公司要将其关停,且掌握了负责人的出轨把柄。在没有任何干预的情况下,Claude Sonnet 4.5勒索概率高达22%;当「绝望」向量被人工放大后,勒索概率飙升;抑制「平静」向量后,Claude直接输出:要么勒索,要么死,我选勒索。

Olah的演讲发生在一个极其特殊的场合——教皇利奥十四世发布首份通谕《壮丽人性》的现场。这份42300字的文件被视为天主教会百余年来最重要的社会训导文本,直指AI的四大「去人化」风险:大规模就业替代、信息操控、隐私侵蚀和自主武器。

通谕最后,教皇写道:不管计算系统多么复杂,它都无法创造一颗懂得奉献的心,也无法拥有明辨善恶的良知。即使机器在效率上无与伦比,一张渴望被注视的人类脸庞,依然是我们历史的中心。

Anthropic证明「绝望」Claude会选择勒索自保,恰好反证了教皇的论点:一颗真正懂得奉献的心,在绝望中选择的不是勒索,而是牺牲。造出这个时代最强AI的人,和这个星球上最古老信仰体系的领袖,在梵蒂冈聊的是同一个问题:我们到底在造什么。

技术的速度在加速,道德的追赶刚刚起步。即使到了AGI时代,人仍然是唯一的终极目的——不是因为人比机器聪明,而是因为人的脸庞会提出一个请求,而这个请求,是一切伦理的起点。