i陆三金
25-03-28 12:17 微博认证:AI博主

Anthropic 最新研究:模型并不只是单纯的专注于预测下一个词,而是会提前做规划。

Anthropic 最新发布了两篇论文《Circuit Tracing: Revealing Computational Graphs in Language Models》、《On the Biology of a Large Language Model》,一些结论:

- Claude 有时会在语言之间共享的概念空间中思考,这表明它拥有一种普遍的“思维语言”。
- Claude 会提前计划要说的话,并写出以达到那个目的地。Anthropic 在诗歌领域展示了这一点,它提前考虑可能的押韵词,并写出下一行以达到目标。这是强有力的证据,表明即使模型被训练为一次输出一个词,它们可能会在更长的时间范围内进行思考。
- Claude 有时会给出一个听起来合理的论点,旨在迎合用户而非遵循逻辑步骤。Anthropic 通过向它寻求一个难题的帮助,同时给出一个错误的提示来展示这一点。研究人员能够“当场抓住”它编造虚假推理的过程,这证明了 Anthropic 的工具在标记模型中令人担忧的机制方面是有用的。

链接:http://t.cn/A6BF5Yyi http://t.cn/A6BF5Rd5

发布于 北京