麻省理工科技评论 25-03-28 20:33
微博认证:《麻省理工科技评论》杂志官方微博

【Anthropic用“AI显微镜”扒开Claude“大脑结构”,揭示语言模型行为背后机制】

当地时间 3 月 27 日,#Anthropic#  在一篇技术论文中介绍了一种名为“通路追踪”的技术,该技术让人们能够逐步追踪大语言模型内部的决策过程。

研究中,Anthropic 采用通路追踪技术,来观察其#大语言模型# Claude 3.5 Haiku 在执行各种任务时的表现。

通路,可以将模型的不同组件连接在一起。2024 年,Anthropic 发现 Claude 中的某些组件与现实世界中的概念相对应。基于上述发现以及其他已有成果,Anthropic 在本次论文中揭示了各个组件之间的一些联系。

论文中,#Anthropic# 介绍了一种揭示语言模型行为背后机制的方法。其通过在替代模型中追踪到的各个计算步骤,来生成模型在目标提示词上计算过程的图表描述。

这种替代模型使用一个更易解释的组件(Anthropic 将其称之为跨层转码器),来替换原始模型中待模拟的部分(Anthropic 将其称之为多层感知器)。

戳链接查看详情:http://t.cn/A6Bs9pCj