【Anthropic用“AI显微镜”扒开Claude“大脑结构”，揭示语言模型行为背后机制】当地时间 3 月 27 日，#Anthropic# 在一篇技术论文中介绍了一种名为“通路追踪”的技术，该技术让人们能够逐步追踪大语言模型内部的决策过程。研究中，Anthropic 采用通路追踪技术，来观察其#大语言模型# Claude 3.

【Anthropic用“AI显微镜”扒开Claude“大脑结构”，揭示语言模型行为背后机制】

当地时间 3 月 27 日，#Anthropic# 在一篇技术论文中介绍了一种名为“通路追踪”的技术，该技术让人们能够逐步追踪大语言模型内部的决策过程。

研究中，Anthropic 采用通路追踪技术，来观察其#大语言模型# Claude 3.5 Haiku 在执行各种任务时的表现。

通路，可以将模型的不同组件连接在一起。2024 年，Anthropic 发现 Claude 中的某些组件与现实世界中的概念相对应。基于上述发现以及其他已有成果，Anthropic 在本次论文中揭示了各个组件之间的一些联系。

论文中，#Anthropic# 介绍了一种揭示语言模型行为背后机制的方法。其通过在替代模型中追踪到的各个计算步骤，来生成模型在目标提示词上计算过程的图表描述。

这种替代模型使用一个更易解释的组件（Anthropic 将其称之为跨层转码器），来替换原始模型中待模拟的部分（Anthropic 将其称之为多层感知器）。

戳链接查看详情：http://t.cn/A6Bs9pCj