Anthropic 最新研究：模型并不只是单纯的专注于预测下一个词，而是会提前做规划。Anthropic 最新发布了两篇论文《Circuit Tracing: Revealing Computational Graphs in Language Models》、《On the Biology of a Large Language Model》，一些结论：- Claude 有时会在语言之间共享的概念空间中思

Anthropic 最新研究：模型并不只是单纯的专注于预测下一个词，而是会提前做规划。

Anthropic 最新发布了两篇论文《Circuit Tracing: Revealing Computational Graphs in Language Models》、《On the Biology of a Large Language Model》，一些结论：

- Claude 有时会在语言之间共享的概念空间中思考，这表明它拥有一种普遍的“思维语言”。
- Claude 会提前计划要说的话，并写出以达到那个目的地。Anthropic 在诗歌领域展示了这一点，它提前考虑可能的押韵词，并写出下一行以达到目标。这是强有力的证据，表明即使模型被训练为一次输出一个词，它们可能会在更长的时间范围内进行思考。
- Claude 有时会给出一个听起来合理的论点，旨在迎合用户而非遵循逻辑步骤。Anthropic 通过向它寻求一个难题的帮助，同时给出一个错误的提示来展示这一点。研究人员能够“当场抓住”它编造虚假推理的过程，这证明了 Anthropic 的工具在标记模型中令人担忧的机制方面是有用的。

链接：http://t.cn/A6BF5Yyi http://t.cn/A6BF5Rd5

发布于北京