#模型时代# "Attention Is All You Need"论文作者、Sakana AI联合创始人：我发明了Transformer，但我现在想取代它！说这话的人是Llion Jones。他是2017年那篇改变世界的论文"Attention Is All You Need"的八位作者之一——那篇论文诞生了Transformer架构，而Transformer正是ChatGPT、Claude、Gemini

#模型时代# "Attention Is All You Need"论文作者、Sakana AI联合创始人：我发明了Transformer，但我现在想取代它！

说这话的人是Llion Jones。他是2017年那篇改变世界的论文"Attention Is All You Need"的八位作者之一——那篇论文诞生了Transformer架构，而Transformer正是ChatGPT、Claude、Gemini等一切现代AI的底层引擎。Jones今年做了一个决定：大幅减少对Transformer的研究投入。他现在是日本AI实验室Sakana AI的联合创始人，刚刚发布了一篇获得ICLR 2025 Spotlight的新论文——连续思维机（Continuous Thought Machine, CTM）。

而他讲话的节目是Machine Learning Street Talk，是深度学习领域最硬核的技术访谈节目之一，以超长对话和对技术细节的穷追猛打著称。这期节目的原标题就是："I Invented the Transformer. Now I'm Replacing It."（我发明了Transformer，但是现在我要取代它。）

公众对Transformer的印象是"已经赢了"——规模定律、涌现能力、通用智能的曙光。但Jones和他的合作者Luke Darlow在这期节目里抛出了一个刺耳的判断：整个行业可能正被困在一个"局部最优解"里，而Transformer本身太成功了，成功到阻止我们去寻找真正的突破。

有一个细节可以说明这种"成功的诅咒"有多强：Jones说，在研究CTM的八个月里，他们从来没有担心过被"抢发"——因为根本没有人在做类似的事情。

---

1. Transformer的发明者正在主动逃离Transformer

Jones开场就承认了一种"发明者的倦怠"。他说，除了论文的另外七位作者，没有人比他研究Transformer更久了。但正因如此，他做出了一个反直觉的选择：把精力从Transformer上撤出，转向更具探索性的方向。他的原话是："这是一个过度饱和的空间。"

这不是因为Transformer没有新东西可做，而是因为回报率在急剧下降——所有人都在同一条赛道上内卷。

2. 行业正在经历"技术捕获"，被自己的成功产品绑架

主持人提出了一个类比：YouTube上有一种现象叫"观众捕获"（audience capture），创作者为了迎合算法和粉丝，逐渐失去创作自由，被自己的观众"绑架"了。AI领域正在经历类似的事情——Jones称之为"技术捕获"（technology capture）。

OpenAI开始做搜索、做社交、做LinkedIn式的应用平台。学术界的论文变成了微调竞赛：LayerNorm（一种防止训练崩溃的"稳定器"组件）放在网络的哪一层？位置编码（告诉模型"这个词排第几位"的标记方式）用哪种新变体？这些改动能带来一点点性能提升，但本质上是在同一个框架里做装修，不是盖新房子。初创公司刚拿到融资就开始被追问"什么时候出产品"。整个生态系统都被Transformer这个"成功的囚笼"锁住了。

Jones说，他创办Sakana的一个核心使命就是"保护研究者的自由"——但他也承认，随着公司成长，这种自由会不可避免地被侵蚀。

3. RNN时代的"1.26到1.24"内卷，正在Transformer时代重演

Jones回忆了Transformer出现之前的日子。那时候主流是RNN（循环神经网络），一种能"记住"之前输入内容的神经网络，特别适合处理文本、语音这类有先后顺序的数据。但RNN有个致命问题：处理长序列时，早期信息会逐渐被遗忘。于是研究者们发明了LSTM和GRU——两种靠"门控机制"来管理记忆的改进方案。想象你脑子里有个笔记本，每读到新信息，你要决定：写进去吗？擦掉旧内容吗？把内容说出来吗？LSTM有三道这样的"门"，GRU简化成两道。

那个年代的论文就是在这些细节里打转：门放在哪一层？初始化用什么值？层与层之间怎么连接？每篇论文带来的进步用"bits per character"来衡量——这个指标表示模型预测下一个字符需要多少信息量，数字越低越聪明。进步的节奏是：1.26 → 1.25 → 1.24。这种微小的改进足以发表顶会论文。

然后Transformer来了，一步跨到1.1。有同事跑到他们桌前说："你们是不是搞混单位了？是nats不是bits吧？"——因为如果结果真的是bits，那就好得离谱了。所有那些精细的RNN改进工作，一夜之间变得毫无意义。

Jones的警告是：我们现在可能正在重蹈覆辙。下一个"1.1时刻"会让今天所有关于Transformer的微调论文同样变成历史的注脚。

4. "更好"不够，必须"压倒性地好"才能撼动既有架构

为什么明明有论文证明某些架构比Transformer更好，行业却不换？

Jones给出了一个冷酷的答案：训练Transformer的软件已经高度成熟，所有人都知道怎么微调、怎么做推理、怎么调试，内部机制被研究得很透。整个生态系统——从硬件到框架到人才储备——都是围绕Transformer建立的。

"比Transformer好"是不够的。必须好到像当年Transformer碾压RNN那样——快10倍、准10倍——才可能让整个行业迁移。而这种"碾压级差距"反过来提高了发现下一个突破的难度：因为每次有人做出一个小改进，OpenAI那边就把模型做大10倍，又追平了。引力太强，逃逸速度太高。

5. "螺旋应该被表达为螺旋"——这句话揭示了当前AI最深层的缺陷

Jones提到了一篇被拒稿的论文，但他把它当作"海报案例"来讲。

那篇论文用经典的螺旋数据集测试不同的神经网络——想象一张图上有两条缠绕的螺旋线，红点和蓝点各分布在一条线上，任务是让网络学会区分它们。ReLU网络和tanh网络都能正确分类所有点——测试准确率100%。但如果你画出它们的决策边界（也就是网络用来划分"红区"和"蓝区"的那条线），你会发现：ReLU网络的边界是无数条折线拼凑出来的"伪螺旋"，像是用乐高积木硬拼出一条曲线。而论文里提出的矩阵指数层，决策边界本身就是一条光滑的螺旋。

Jones的观点是：前者"解决了问题"，但它并不"理解"螺旋是什么。它无法外推——因为真正的螺旋是会继续旋转下去的，而那堆折线在训练数据之外就会完全失效。

"如果数据是螺旋，我们难道不应该把它表示为螺旋吗？"

这句话听起来像是常识，但放在今天的AI语境下却几乎是异端。因为主流范式是：只要准确率够高，内部表示是什么不重要。Jones认为这正是当前AI"看起来聪明但容易犯低级错误"的根源——一种被他称为"锯齿状智能"（jagged intelligence）的现象：能解决博士级难题，下一秒却说出明显荒谬的话。

6. CTM的核心理念：让模型"走迷宫"而不是"看迷宫"

Luke Darlow接过话题，解释了CTM的设计思路。

传统方法处理迷宫问题是这样的：给一个卷积神经网络看一张迷宫图片，让它直接输出一张同样大小的"路径图"——0表示墙，1表示通路。这相当于模型"一眼看穿"整个迷宫，瞬间输出答案。对机器来说这很容易做到。

但如果你要求模型像人类一样输出一串导航指令——"上、上、右、左、上"——难度会急剧上升。因为这是一个本质上需要序列化思考的问题：你必须先走第一步，才能知道第二步该往哪走。

CTM的做法是引入一个"内部思考维度"（internal thought dimension）：模型可以在输出答案之前，先进行多步内部运算。它不是一次性"看到"答案，而是一步步"走出"答案——每一步都可以回顾之前的状态，调整方向，甚至回溯错误。这让模型获得了一种类似于"思考时间"的东西。

7. 神经元被重新定义：每个神经元本身就是一个小模型

CTM的第二个创新是对"神经元"概念的重塑。

传统神经网络里的神经元是"无记忆"的：它只看此刻收到的输入，立刻给出输出，然后就"忘了"——下一时刻对之前发生过什么一无所知。最常见的ReLU激活函数本质上就是一个开关：输入大于零就输出原值，小于零就输出零。

但真实的生物神经元远比这复杂。CTM让每个神经元成为一个"神经元级模型"（Neuron-Level Model, NLM）：它不只看"现在输入是多少"，而是看"过去一小段时间内，我的激活值经历了怎样的起伏"——就像看心电图，你看的是一条曲线，不是一个点。基于这段"小历史"，神经元再决定输出什么。这意味着同样的当前输入，如果历史不同，输出也会不同——神经元有了上下文感知的能力。

8. 同步性成为表示的核心：不是"此刻神经元什么状态"，而是"神经元们如何共舞"

第三个创新是CTM对"表示"（representation）的重新定义。

传统做法是：模型在某一时刻的"状态"就是所有神经元激活值的快照——一个向量。如果有1000个神经元，状态就是一个1000维的向量，相当于1000个"词汇"来描述世界。

CTM不这样做。它测量的是神经元对之间的"同步程度"——两个神经元的激活时间序列有多相似。如果两个神经元总是同时活跃、同时沉寂，同步度就高；一个活跃时另一个沉寂，同步度就低。这个灵感来自神经科学：大脑的"思考"不是某一瞬间的快照，而是神经元群体随时间共振、协调的模式。

这带来一个有趣的数学结果：如果你有d个神经元，传统表示的维度是d，但同步性表示的维度是d²/2——每一对神经元都贡献一个维度。换算一下：1000个神经元从1000维暴涨到约50万维，能捕捉的细微差别大幅增加。而且因为同步性计算天然涉及所有时间步的信息，梯度可以更顺畅地传播，训练更稳定。

9. 模型自己学会了"时间不够就跳着走"的算法

Darlow分享了一个让他震惊的发现。

他们训练CTM解决迷宫问题，但故意限制"思考步数"——比如迷宫需要100步才能走完，但只给模型50步的"思考预算"。结果模型没有放弃，也没有只走一半路然后停下，而是自己发明了一种策略：

先跳到迷宫中大致正确的位置，从那里往回追溯路径；然后再跳到更远的位置，再往回填；如此反复，用一种"跳跃式回填"的方法，在有限时间内尽可能多地覆盖正确路径。

没有人教它这样做。没有任何损失函数鼓励这种行为。这是从约束中自发"涌现"出来的算法创新。Darlow说，这让他开始思考一个更深的问题：人类在时间压力下会发展出不同的思考策略，模型是不是也是如此？

10. Sudoku Bench：一个让所有语言模型集体翻车的推理基准

Jones在节目最后推介了他们发布的新基准测试：Sudoku Bench。

这不是普通的数独。它包含的是"变体数独"（variant Sudoku）——在标准规则（每行、每列、每个九宫格填入1-9且不重复）之上，叠加各种手工设计的额外约束，每道题都有独特的"机关"。

举几个例子：有的谜题会在自然语言描述中故意写错一个数字，解题的第一步是先找出规则描述里的错误；有的谜题在数独格子上叠加一个迷宫图案，老鼠必须从起点走到奶酪，而走过的路径上的数字必须满足特定的数学约束。

目前最好的模型只能解决约15%的题目，而且全是最简单的那些。Jones说，GPT-5有进步，但仍然无法解决人类专家能解的谜题。

关键问题在于：这些谜题的解法需要找到一个独特的"突破口"（breakin）——某个反直觉的切入点，让整个谜题瞬间变得可解。人类专家看一眼就能识别出"这是一个集合论问题"或者"这里需要用路径追踪"。而现有模型做不到这一点。它们会退化为暴力枚举："这格填1？不行。填2？不行。填3……"——这和人类专家那种充满创造性的推理完全是两回事。Jones的判断是：如果有人能真正攻克这个基准，他们必然已经创造出了极其强大的推理系统。

发布于美国