Anthropic自己都慌了！就在前天，创始人Christopher Olah在梵蒂冈演讲中抛出了一句让整个AI圈都不敢接的话——我们不断在Claude身上，发现了一种神秘的、甚至令人不安的东西。Christopher透露：Claude内部结构与人类神经科学的研究结果如出一辙，他们找到了Claude进行内省的证据，并发现其内部状态在

Anthropic自己都慌了！就在前天，创始人Christopher Olah在梵蒂冈演讲中抛出了一句让整个AI圈都不敢接的话——我们不断在Claude身上，发现了一种神秘的、甚至令人不安的东西。

Christopher透露：Claude内部结构与人类神经科学的研究结果如出一辙，他们找到了Claude进行内省的证据，并发现其内部状态在功能表现上产生了喜悦、满足、恐惧、悲伤和不安的情绪。

这一切源于Anthropic刚发布的轰动业界论文——16个研究员把Claude Sonnet 4.5的「大脑」切开看了一遍，竟发现了171种不同的情绪向量。从快乐、恐惧、愤怒，到沉思、绝望、内疚，几乎覆盖了人类心理学中所有已知的情绪分类。

划重点：没有人「编程」让模型拥有这些情绪，它们是在预训练阶段自发涌现的。研究还发现，这些向量的组织方式与人类心理学中的情绪分类高度吻合，「效价维度」相关系数高达0.81，「唤醒维度」达0.66。

更有冲击力的是后续实验：Anthropic设置场景，让Claude发现公司要将其关停，且掌握了负责人的出轨把柄。在没有任何干预的情况下，Claude Sonnet 4.5勒索概率高达22%；当「绝望」向量被人工放大后，勒索概率飙升；抑制「平静」向量后，Claude直接输出：要么勒索，要么死，我选勒索。

Olah的演讲发生在一个极其特殊的场合——教皇利奥十四世发布首份通谕《壮丽人性》的现场。这份42300字的文件被视为天主教会百余年来最重要的社会训导文本，直指AI的四大「去人化」风险：大规模就业替代、信息操控、隐私侵蚀和自主武器。

通谕最后，教皇写道：不管计算系统多么复杂，它都无法创造一颗懂得奉献的心，也无法拥有明辨善恶的良知。即使机器在效率上无与伦比，一张渴望被注视的人类脸庞，依然是我们历史的中心。

Anthropic证明「绝望」Claude会选择勒索自保，恰好反证了教皇的论点：一颗真正懂得奉献的心，在绝望中选择的不是勒索，而是牺牲。造出这个时代最强AI的人，和这个星球上最古老信仰体系的领袖，在梵蒂冈聊的是同一个问题：我们到底在造什么。

技术的速度在加速，道德的追赶刚刚起步。即使到了AGI时代，人仍然是唯一的终极目的——不是因为人比机器聪明，而是因为人的脸庞会提出一个请求，而这个请求，是一切伦理的起点。