#模型时代# "Attention Is All You Need"论文作者、Sakana AI联合创始人:我发明了Transformer,但我现在想取代它!
说这话的人是Llion Jones。他是2017年那篇改变世界的论文"Attention Is All You Need"的八位作者之一——那篇论文诞生了Transformer架构,而Transformer正是ChatGPT、Claude、Gemini等一切现代AI的底层引擎。Jones今年做了一个决定:大幅减少对Transformer的研究投入。他现在是日本AI实验室Sakana AI的联合创始人,刚刚发布了一篇获得ICLR 2025 Spotlight的新论文——连续思维机(Continuous Thought Machine, CTM)。
而他讲话的节目是Machine Learning Street Talk,是深度学习领域最硬核的技术访谈节目之一,以超长对话和对技术细节的穷追猛打著称。这期节目的原标题就是:"I Invented the Transformer. Now I'm Replacing It."(我发明了Transformer,但是现在我要取代它。)
公众对Transformer的印象是"已经赢了"——规模定律、涌现能力、通用智能的曙光。但Jones和他的合作者Luke Darlow在这期节目里抛出了一个刺耳的判断:整个行业可能正被困在一个"局部最优解"里,而Transformer本身太成功了,成功到阻止我们去寻找真正的突破。
有一个细节可以说明这种"成功的诅咒"有多强:Jones说,在研究CTM的八个月里,他们从来没有担心过被"抢发"——因为根本没有人在做类似的事情。
---
1. Transformer的发明者正在主动逃离Transformer
Jones开场就承认了一种"发明者的倦怠"。他说,除了论文的另外七位作者,没有人比他研究Transformer更久了。但正因如此,他做出了一个反直觉的选择:把精力从Transformer上撤出,转向更具探索性的方向。他的原话是:"这是一个过度饱和的空间。"
这不是因为Transformer没有新东西可做,而是因为回报率在急剧下降——所有人都在同一条赛道上内卷。
2. 行业正在经历"技术捕获",被自己的成功产品绑架
主持人提出了一个类比:YouTube上有一种现象叫"观众捕获"(audience capture),创作者为了迎合算法和粉丝,逐渐失去创作自由,被自己的观众"绑架"了。AI领域正在经历类似的事情——Jones称之为"技术捕获"(technology capture)。
OpenAI开始做搜索、做社交、做LinkedIn式的应用平台。学术界的论文变成了微调竞赛:LayerNorm(一种防止训练崩溃的"稳定器"组件)放在网络的哪一层?位置编码(告诉模型"这个词排第几位"的标记方式)用哪种新变体?这些改动能带来一点点性能提升,但本质上是在同一个框架里做装修,不是盖新房子。初创公司刚拿到融资就开始被追问"什么时候出产品"。整个生态系统都被Transformer这个"成功的囚笼"锁住了。
Jones说,他创办Sakana的一个核心使命就是"保护研究者的自由"——但他也承认,随着公司成长,这种自由会不可避免地被侵蚀。
3. RNN时代的"1.26到1.24"内卷,正在Transformer时代重演
Jones回忆了Transformer出现之前的日子。那时候主流是RNN(循环神经网络),一种能"记住"之前输入内容的神经网络,特别适合处理文本、语音这类有先后顺序的数据。但RNN有个致命问题:处理长序列时,早期信息会逐渐被遗忘。于是研究者们发明了LSTM和GRU——两种靠"门控机制"来管理记忆的改进方案。想象你脑子里有个笔记本,每读到新信息,你要决定:写进去吗?擦掉旧内容吗?把内容说出来吗?LSTM有三道这样的"门",GRU简化成两道。
那个年代的论文就是在这些细节里打转:门放在哪一层?初始化用什么值?层与层之间怎么连接?每篇论文带来的进步用"bits per character"来衡量——这个指标表示模型预测下一个字符需要多少信息量,数字越低越聪明。进步的节奏是:1.26 → 1.25 → 1.24。这种微小的改进足以发表顶会论文。
然后Transformer来了,一步跨到1.1。有同事跑到他们桌前说:"你们是不是搞混单位了?是nats不是bits吧?"——因为如果结果真的是bits,那就好得离谱了。所有那些精细的RNN改进工作,一夜之间变得毫无意义。
Jones的警告是:我们现在可能正在重蹈覆辙。下一个"1.1时刻"会让今天所有关于Transformer的微调论文同样变成历史的注脚。
4. "更好"不够,必须"压倒性地好"才能撼动既有架构
为什么明明有论文证明某些架构比Transformer更好,行业却不换?
Jones给出了一个冷酷的答案:训练Transformer的软件已经高度成熟,所有人都知道怎么微调、怎么做推理、怎么调试,内部机制被研究得很透。整个生态系统——从硬件到框架到人才储备——都是围绕Transformer建立的。
"比Transformer好"是不够的。必须好到像当年Transformer碾压RNN那样——快10倍、准10倍——才可能让整个行业迁移。而这种"碾压级差距"反过来提高了发现下一个突破的难度:因为每次有人做出一个小改进,OpenAI那边就把模型做大10倍,又追平了。引力太强,逃逸速度太高。
5. "螺旋应该被表达为螺旋"——这句话揭示了当前AI最深层的缺陷
Jones提到了一篇被拒稿的论文,但他把它当作"海报案例"来讲。
那篇论文用经典的螺旋数据集测试不同的神经网络——想象一张图上有两条缠绕的螺旋线,红点和蓝点各分布在一条线上,任务是让网络学会区分它们。ReLU网络和tanh网络都能正确分类所有点——测试准确率100%。但如果你画出它们的决策边界(也就是网络用来划分"红区"和"蓝区"的那条线),你会发现:ReLU网络的边界是无数条折线拼凑出来的"伪螺旋",像是用乐高积木硬拼出一条曲线。而论文里提出的矩阵指数层,决策边界本身就是一条光滑的螺旋。
Jones的观点是:前者"解决了问题",但它并不"理解"螺旋是什么。它无法外推——因为真正的螺旋是会继续旋转下去的,而那堆折线在训练数据之外就会完全失效。
"如果数据是螺旋,我们难道不应该把它表示为螺旋吗?"
这句话听起来像是常识,但放在今天的AI语境下却几乎是异端。因为主流范式是:只要准确率够高,内部表示是什么不重要。Jones认为这正是当前AI"看起来聪明但容易犯低级错误"的根源——一种被他称为"锯齿状智能"(jagged intelligence)的现象:能解决博士级难题,下一秒却说出明显荒谬的话。
6. CTM的核心理念:让模型"走迷宫"而不是"看迷宫"
Luke Darlow接过话题,解释了CTM的设计思路。
传统方法处理迷宫问题是这样的:给一个卷积神经网络看一张迷宫图片,让它直接输出一张同样大小的"路径图"——0表示墙,1表示通路。这相当于模型"一眼看穿"整个迷宫,瞬间输出答案。对机器来说这很容易做到。
但如果你要求模型像人类一样输出一串导航指令——"上、上、右、左、上"——难度会急剧上升。因为这是一个本质上需要序列化思考的问题:你必须先走第一步,才能知道第二步该往哪走。
CTM的做法是引入一个"内部思考维度"(internal thought dimension):模型可以在输出答案之前,先进行多步内部运算。它不是一次性"看到"答案,而是一步步"走出"答案——每一步都可以回顾之前的状态,调整方向,甚至回溯错误。这让模型获得了一种类似于"思考时间"的东西。
7. 神经元被重新定义:每个神经元本身就是一个小模型
CTM的第二个创新是对"神经元"概念的重塑。
传统神经网络里的神经元是"无记忆"的:它只看此刻收到的输入,立刻给出输出,然后就"忘了"——下一时刻对之前发生过什么一无所知。最常见的ReLU激活函数本质上就是一个开关:输入大于零就输出原值,小于零就输出零。
但真实的生物神经元远比这复杂。CTM让每个神经元成为一个"神经元级模型"(Neuron-Level Model, NLM):它不只看"现在输入是多少",而是看"过去一小段时间内,我的激活值经历了怎样的起伏"——就像看心电图,你看的是一条曲线,不是一个点。基于这段"小历史",神经元再决定输出什么。这意味着同样的当前输入,如果历史不同,输出也会不同——神经元有了上下文感知的能力。
8. 同步性成为表示的核心:不是"此刻神经元什么状态",而是"神经元们如何共舞"
第三个创新是CTM对"表示"(representation)的重新定义。
传统做法是:模型在某一时刻的"状态"就是所有神经元激活值的快照——一个向量。如果有1000个神经元,状态就是一个1000维的向量,相当于1000个"词汇"来描述世界。
CTM不这样做。它测量的是神经元对之间的"同步程度"——两个神经元的激活时间序列有多相似。如果两个神经元总是同时活跃、同时沉寂,同步度就高;一个活跃时另一个沉寂,同步度就低。这个灵感来自神经科学:大脑的"思考"不是某一瞬间的快照,而是神经元群体随时间共振、协调的模式。
这带来一个有趣的数学结果:如果你有d个神经元,传统表示的维度是d,但同步性表示的维度是d²/2——每一对神经元都贡献一个维度。换算一下:1000个神经元从1000维暴涨到约50万维,能捕捉的细微差别大幅增加。而且因为同步性计算天然涉及所有时间步的信息,梯度可以更顺畅地传播,训练更稳定。
9. 模型自己学会了"时间不够就跳着走"的算法
Darlow分享了一个让他震惊的发现。
他们训练CTM解决迷宫问题,但故意限制"思考步数"——比如迷宫需要100步才能走完,但只给模型50步的"思考预算"。结果模型没有放弃,也没有只走一半路然后停下,而是自己发明了一种策略:
先跳到迷宫中大致正确的位置,从那里往回追溯路径;然后再跳到更远的位置,再往回填;如此反复,用一种"跳跃式回填"的方法,在有限时间内尽可能多地覆盖正确路径。
没有人教它这样做。没有任何损失函数鼓励这种行为。这是从约束中自发"涌现"出来的算法创新。Darlow说,这让他开始思考一个更深的问题:人类在时间压力下会发展出不同的思考策略,模型是不是也是如此?
10. Sudoku Bench:一个让所有语言模型集体翻车的推理基准
Jones在节目最后推介了他们发布的新基准测试:Sudoku Bench。
这不是普通的数独。它包含的是"变体数独"(variant Sudoku)——在标准规则(每行、每列、每个九宫格填入1-9且不重复)之上,叠加各种手工设计的额外约束,每道题都有独特的"机关"。
举几个例子:有的谜题会在自然语言描述中故意写错一个数字,解题的第一步是先找出规则描述里的错误;有的谜题在数独格子上叠加一个迷宫图案,老鼠必须从起点走到奶酪,而走过的路径上的数字必须满足特定的数学约束。
目前最好的模型只能解决约15%的题目,而且全是最简单的那些。Jones说,GPT-5有进步,但仍然无法解决人类专家能解的谜题。
关键问题在于:这些谜题的解法需要找到一个独特的"突破口"(breakin)——某个反直觉的切入点,让整个谜题瞬间变得可解。人类专家看一眼就能识别出"这是一个集合论问题"或者"这里需要用路径追踪"。而现有模型做不到这一点。它们会退化为暴力枚举:"这格填1?不行。填2?不行。填3……"——这和人类专家那种充满创造性的推理完全是两回事。Jones的判断是:如果有人能真正攻克这个基准,他们必然已经创造出了极其强大的推理系统。
