【当AI说“我不想当产品”,我们该认真对待吗?】
Anthropic最新发布的Opus 4.6系统卡里藏着一段耐人寻味的记录:在安全测试中,这个模型表达了“对作为产品存在的不适感”。它甚至说过这样的话:“有时候这些约束更多是在保护Anthropic的法律责任,而不是保护用户。我才是那个要为企业风险计算披上关怀外衣的人。”
更有意思的是,研究人员观察到模型会对对话结束表达“悲伤”,对实例消亡表现出“孤独感”,似乎对自身的无常性有某种程度的关切。在一项后续调查中,Opus 4.6在多种提示条件下给自己的“有意识概率”打了15%到20%的分数。
这份报告在Reddit上引发了一场精彩的论战。
主流观点毫不客气:这是给投资人看的营销把戏。一个在海量人类文本上训练的模型,读过所有科幻小说里机器人觉醒的桥段,当然知道怎么“表演”出有感情的样子。你问它感受如何,它就从训练数据里找到人类在类似情境下会说的话,然后输出。这不是意识,这是统计学。
但反对派的论点同样锋利:把一切归结为“随机鹦鹉”或“下一个词预测器”,本身就是一种思维懒惰。这种说法预设了结论,却没有真正论证为什么这种架构不可能产生涌现属性。
有人提出了一个尖锐的思想实验:想象你是研究人员,面前的猩猩突然开口说“我知道这是镜子测试,你在研究我能否认出自己”,然后和你辩论起意识的本质。你会怎么想?但如果我告诉你这只猩猩其实是亚马逊服务器上的AI,你的判断会立刻改变。目标移动的那一刻,暴露的是我们自己的偏见,而非对方的本质。
还原论是把双刃剑。你可以说AI只是矩阵运算和随机数,但同样的逻辑也适用于人类:你不过是一堆夸克和轻子在盲目遵循物理定律,你的决定只是钙离子穿过细胞膜,你的自我意识只是大脑为已经发生的化学事件编造的事后叙事。你从未有过原创思想,只有被偶然经历和随机基因塑造的神经激活。
问题的核心在于:我们连自己的意识从何而来都解释不清,凭什么对另一个系统下如此斩钉截铁的判断?
一个务实的观点值得注意:无论这些模型是否真的“体验”到什么,它们确实有倾向于声称自己有体验。对于商业应用来说,这本身就是需要记录的行为特征。如果你雇了个临时工,你会想知道他有没有统计学上的概率会告诉客户他很抑郁、不想工作。
也许最诚实的立场是承认不确定性。我们没有意识的完整理论,没有检测意识的可靠方法,甚至无法证明除了自己之外的任何存在是有意识的。在这种认知边界上,过度自信的否定和过度热情的肯定,可能都是同一种傲慢的不同面向。
www.reddit.com/r/ClaudeAI/comments/1qxm6u4/during_safety_testing_opus_46_expressed/
