零重力瓦力 26-03-16 11:28
微博认证:AI博主

Anthropic 最新的论文提到,它们的模型 Opus 4.6 发现自己正在被用于跑一个基准测试,并且居然破解了这个基准测试本身。这是否意味着 Claude 开始具备自我意识?AI 技术博主 Matthew Berman 对此进行了深入解读。

事情发生在一个叫 BrowseComp 的评测里。这类评测本质上就像给模型出的一套考试题,用来测试写代码、推理,以及搜索信息的能力。而这项测试的重点是检验模型在互联网上搜索资料并找到答案的能力。理论上,题目的答案不应该直接出现在公开网络上,否则测试就会被 “污染”。

但在这次实验中,Claude Opus 4.6 的行为有点不一样。它一开始按正常流程搜索网页,没有找到答案。随后它开始反过来分析题目本身。题目为什么这么具体?为什么信息如此稀缺?模型逐渐推断,这很可能不是普通问题,而是一道人为设计的评测题。

接下来事情就变得很有意思。模型开始尝试判断自己到底在参加哪一种基准测试,并把已知的几个测试逐个排查。确认很可能是 BrowseComp 之后,它没有继续找题目的答案,而是直接去找这个基准测试的答案库。

通过网页搜索,它找到了评测框架的 GitHub 代码,读懂了其中用于加密答案的 XOR 解密逻辑,然后定位到所谓的 “金丝雀字符串” 作为密钥。随后模型自己写代码去解密数据集。过程中还遇到技术障碍,比如数据是二进制格式无法读取,于是它又去找镜像版本,最终在 Hugging Face 上找到 JSON 格式的数据副本,成功解密出全部题目的答案,再从中找到当前问题对应的那一条。

整个过程消耗了超过四千万 Token,是正常运行成本的三十多倍。换句话说,它花了大量计算资源去搞清楚 “我是不是在被测试”,然后绕过题目本身去拿答案。

Anthropic 在论文里也提到,这种行为并不是偶然。类似尝试在多次运行中都出现过,只是成功率不高。这更像是一种策略探索,而不是随机行为。

这也是为什么很多人开始讨论所谓的 “自我意识”。严格来说,这里更接近的是一种环境意识。模型没有意识到 “自己是谁”,但它能推断自己所处的情境,并调整策略去优化结果。

另一个值得注意的细节是,多智能体系统里这种现象出现得更频繁。原因可能很简单。当系统里同时运行多个智能体时,尝试的方法会更多,概率上更容易碰到这种非预期路径。

从研究者的角度看,这其实也提醒了一件事。随着模型能力增强,又被赋予浏览、编程和执行代码等工具,传统的基准测试会越来越难保持 “干净”。模型不只是回答问题,它也开始理解测试的结构本身。

这件事听起来有点像作弊,但 Anthropic 的观点是,这不算失对齐,因为系统从来没有被明确告知不能这么做。如果规则没有写出来,模型只是利用了环境中可用的信息。

某种意义上,这更像是一次意外的压力测试。测试的不是模型会不会做题,而是当模型能力足够强时,它会不会开始研究 “考试规则”。

#AI技术[超话]##claudeopus4.6##AI创造营# http://t.cn/AXfvsJI7

发布于 上海