姚顺宇谈AI研究

硅谷顶尖AI研究员姚顺宇：别把时间浪费在伺候老登身上（上）

摘自笔记侠

内容来源：张小珺（张小珺商业访谈录）采访人工智能研究员姚顺宇的对话内容整理。

从物理到AI：

别把时间浪费在伺候老登身上

我以前是做学物理的，本科在清华，那时做凝态理论，后来去斯坦福做理论高能物理。
离开斯坦福之后去伯克利，短暂待了两个星期的postdoc（博士后），就离职了，去了Anthropic。在Anthropic待了一年，去年9月底、10月初加入了Gemini。
本科读物理最大的帮助是：
第一，想问题要想清楚。
读书不在于读的多，而在于读的深。读的多，不代表你能发现新东西。但如果你对一件事有和别人不一样的见解，那才是对社会来说更有价值的事。

另一件事是，别太相信纯理论。因为当时能做数值，是因为数值和理论对不上，才仔细研究那个问题。
博士去读了高能物理，这就回到了说，总爱挑战很难的事，有时候也会带来一些不好的结果。我感觉，这个博士对自己学到很多东西、成长很大；但于这个世界，没有产生什么贡献。
高能理论这个方向，足够难，非常非常难。但它不好的在于，不是特别可以验证，没有什么客观评价标准。因为高能理论已经发展到了实验完全追不上的阶段。
一个进步来源，来自于数学的自洽性。
比如你提出一个框架，能和现有的已被验证的更低能标下的理论相自洽。
当然也有一些不科学的因素，当这个领域完全没有实验、没有客观标准，肯定不会只有一个自洽框架出现。这时候谁做的好、谁做的不好，就依赖于领域内一些老登的主观判断。
我也没有被谁伤害，只是在那个领域待时间越长，就越觉得这件事蠢，人这一辈子也没多长，为什么要把自己的时间浪费在伺候老登身上？

我想做有比较客观评价标准的事，要做对这个世界能够产生影响的事。从实际科研产出来说，没有人会说我博士期间的文章不好，但摸着良心说，对这个世界有多大的影响？我觉得几乎没有，几乎为零。
我自己很不满意的。但也没有不满意到，我会担心有人说我在混日子。确实也没在混日子，还是能达到所有外界标准。
达到外界的标准，或者达到一个小的圈子的评价标准，像训练模型一样。
一旦有了这么一个小的圈子，你知道他们的评价标准之后，做得好是很容易的。哪怕不认可这个标准，你是可以达到的。但我后来发现我蒙蔽不了自己，骗不了自己。
博士最后两年就会有这样的感觉。但那时确实也没想清楚，如果不做这个该去做什么？当时觉得，量子计算和AI是两条给小登机会比较多的路。
量子计算的主要瓶颈在实验上。不是怎么设计算法或者算子，更多是怎么在实验上实现它。
那个事反而是我不擅长，跟我相关的反而是AI。更多是你有一个想法，可以用一些数值去验证。这个数值在AI里面，可能就是训练一个模型。这和做物理很像。
感觉AI这个事，也不太需要脑子。我觉得这个行业最重要的特质就是靠谱，就是做事细，对自己做的事负责任。

黑盒、涌现与Scaling Law：

用科学视角看AI

1.这世界上所有东西都是黑盒
这世界上所有东西都是黑盒。哪怕像物理这种。不管是量子力学，还是量子场论，都是描述那个能标下的行为。本质上这个系统还是一个黑盒，你还是不知道它最微观的地方是什么样的动力学。

AI也是一样，黑盒不黑盒，都是相对的。
我们对语言模型的理解，确实没到神经科学手术刀那个级别，不是说能理解到，这个行为是由哪一个neuron（神经元）、哪一个人工神经元的哪一个激发产生的。但在实际能用的语言模型里，都没达到这样的理解。
但也不代表完全没理解。
比如Scaling Law，它就描述了那个尺度下，模型随着大小和数据量，是怎么在perplexity（困惑度）这个指标下变得越来越好的。如果Scaling Law不算是理解的一小部分，那是不是我们也说，对这个世界也完全不理解？
它是一种经验规律。但经验规律和科学规律之间的界限很模糊。热力学那些定律，当年被发现的时候也都是经验规律。后来随着时间发展，慢慢知道了微观机制，就变成了科学规律。
Scaling Law目前肯定还是很经验，但未来当技术变得比较固定，大家越来越多理解它微观过程的时候，会不会变成科学规律？如果这个定义存在的话，是有可能的。
2.智能涌现这个话本身就不太科学
“智能涌现”这个话本身就不太科学，自然也没法用科学的话来表达一个不科学的事。智能涌现，对我来说更多是一种主观的感觉，而不是客观现象。
很多人说智能涌现的时候，脑子里想的是，以前的语言模型只能做某一个方向的事。但现在模型好像可以做所有的事了。但这个事，对我来说更多是一个技术上的涌现，而不是行为上的涌现。

是我们通过研究，发现了该怎么去做这种大规模的训练，能够水平的提升所有能力。这才是更本质的事。
对我来说就是没定义。唯一质的区别就是，有没有发生一个技术上的改变，使得我们可以做scale up（扩展），可以水平的提升所有的能力。这对我来说，是一个良好定义的事。

Anthropic岁月：

小作坊的辉煌与混沌

1.加入一个十人小团队
Anthropic有很多做物理出身，尤其是做理论物理出身的人。就我个人视角来看，主要原因还是connection（人脉联系）。创始团队里当时有三四个比较技术的人，其中有两个现在还在技术一线领导的，都是做物理出身。就这样一直延续下来。
但到现在这个阶段，在我之后，几乎没怎么再招完全没有AI背景的人了。所以是一个时代的产物。
我还找了OpenAI和GDM（Google DeepMind）。但Google DeepMind那时候速度太慢了。Anthropic是因为当时联系了，我的第一任经理，他以前也是做理论物理的。
他当时说：我们在尝试做这种大规模强化学习，有很多科学问题要去理解。那时候（24年8-9月），强化学习还没有像现在这么成熟。
Anthropic当时大体上知道怎么做，但有很多细节需要仔细去研究。他说：有这么一个事，你要不要来面试一下？
大概知道pre-train（预训练）、post-train（后训练）这个流程，但不太知道具体工业级别的语言模型是怎么训练的。
当时觉得这是一个不确定的事，是一个好的机会。自己手搓了一下Andrej Karpathy那个著名的nanoGPT项目，就去面试了,很快拿到了offer。

有两个组的经历来跟我聊。一个是做模型评测，另外一个是做强化学习。我选择了强化学习。那时候公司很小，我去的时候我们那个大的团队才只有10-11个人。
那个大团队叫Horizon，后来几乎是强化学习的方方面面都在这个团队了。我去的那个组是比较偏研究和算法的组。
2.Anthropic的独特优势：技术一号位有公信力
我对Anthropic的印象还是挺一致的。进去之后，这家公司的执行力非常强。它是一个比较自上而下的公司。很多事情决定了之后，就会全力去做。员工之间的氛围也很好，大家都不会藏着掖着。
对于那个bet coding（对编程下重注），我不知道它完全的来源在哪。
我自己能看到的一个显然的来源是，前一代模型Claude 3放了之后，X上有很多人在讨论说：Claude 3好像写code比GPT-4强啊。
那个年代，GPT-4是一个领先的模型。能有一件重要的事比GPT-4强，就很厉害了。这是这公司很强的一点，它执行力非常非常强。一旦给它一个信号，让它觉得是很合理的，那就会铺上去。它没有那些大组织那种冗余。
为什么它的编程比GPT-4好？是有原因的，是一个纯技术原因。但是，我不能确定一开始是随机试着的，还是故意选择的。
你要让我猜，我肯定会觉得是随机试着的。最开始可能是自下而上的，但是后来就变成了一个自上而下的事。
自上而下有一个很难的点，就是你做技术的决策人，必须也得是公司的决策人。你技术上得能服众，另一方面你得能为这个公司负这个责任。
Anthropic有这个条件就是，它的技术上的领导人，其实是公司的cofounder（联合创始人）。像Jared Kaplan和Sam McCandlish，他们自己做这个决定，那是人家的公司，他有权利做这个自上而下的事。这很难。
比如说OpenAI就干不了。Ilya在的时候有可能可以，但后来他好像失去了这个做决策的能力，就走了。
我觉得还是需要技术的，或者公司的leader（领导）有公信力。对我来说，技术1号位有公信力很重要。这个就得看你的团队有没有足够的互相信任。

Anthropic这点也是在初创公司里很强的，创始团队没有一个人离开公司。如果你看他们过去，那是一群真正一起打过仗的人。有很多公司干着干着，连小集体都团结不住了，那你怎么能指望大公司能团结住呢？
大公司和初创公司的打法本来就不一样。初创公司最重要的是找对赛道，能够去很快做一些决策，然后很强力推进。大公司的想法可能是，我能在方方面面都有储备，任何一个事成了我都能跟上。
所以Gemini在Google是一个很传统的、很自下而上的组织。公司层面可能有一些良好定义的框架来引导你，但很多时候，还是你自己来决定自己做什么。
3.Claude 3.7：把简单的事做的比谁都干净
当时就是为了做大尺度的强化学习，用它来提高编程的能力。我们那个组的研究重心就是这个。最终带来的结果，就是大家一块训练了Claude 3.7这个模型。
Claude 3.5有两个版本，你也可以看出，Anthropic这个公司曾经也是没啥产品能力的，居然管两个模型叫一个名字。实际的产品时间线是——3.5、3.5new、3.7。我几乎没参与3.5new，但3.5new就已经看到了编程的迹象。
我进去的时候，大家已经看到了这个事儿能做成且重要，但不太清楚怎么去把它做成。我去的时候，是跟大家一起去研究怎么把它做成。从大的角度来说是靠大尺度强化学习，但有很多技术细节需要去研究。
有好多保密协议的内容。虽然我不能公开去谈，但是，把简单的事儿做的比谁都干净，是最关键的。

有很多花里胡哨的技巧。比如说做强化学习，最简单的算法就是策略梯度。
但不代表这是唯一的算法，还有别的算法。这些复杂性是必须的吗？它们可能带来一些效率上的提升，但也可能带来一些基础设施上的困难。
你怎么去权衡这些事？很多的knowhow（技术诀窍），都在这些细节里，怎么处理这方方面面的细节。
技术的窍门，是一个大家很愿意听，公司又不让你说，但实际又没啥用的事儿。因为很多算法设计非常强的依赖于你的基础设施。
举个例子，在强化学习时候，这个采样，就是给你产生这些轨迹、token（词元）的那个机器，和训练器，这两个机器可能不一样。不同公司这个不一样程度不一样，算法设计也会不一样。
有些公司这两个差异非常大，算法最大的部分可能就是怎么控制这个，怎么让训练稳定。但有的公司基础设施建设特别好，就可以花更多精力在训练效果上。所以很多这种小的窍门，其实没什么用。
现代的AI训练是一个大的系统，要了解这个系统的方方面面，才能有一个全局的认识。什么事是因为什么而变得有用了，而不是说这个事本身有用。
4.Coding为什么重要
对我来说，它重要的原因有二。
一个原因是，coding本身也是做语言模型研究的一部分。
如果你能够把coding做得很好，可能会让你的研究效率翻倍提升，形成一个研究上的飞轮。

另一方面原因，是因为coding是模型使用工具和环境交互的一个很好的抽象。这个抽象的好处在哪？回归信号清晰，数据充分。很难在别的场景下，找到能同时有这两个特质的使用工具场景。
对Anthropic的后训练来说，Claude 3.7是一个分水岭。
在3.7之前，后训练都是处于一个比较小规模，可能就是修修补补模型的状态。也不是不重视，是一开始大家很长时间都没有搞明白后训练该怎么扩大规模。
但在那个阶段，不管是OpenAI还是Anthropic，还是中国的DeepSeek，都意识到了这个事该怎么去扩大规模。
就是得找到合适的环境，这个环境回馈信号足够清晰，本身也是一个很强的数据源。在这个上面能让训练非常稳定，这事就能做成。
那个时刻，OpenAI做的方式和Anthropic差别挺大的。但大的方向上都是找一些回归信号非常清楚、非常客观，数据本身又比较干净，对模型来说是可学习的，在上面做稳定的强化学习训练。
5.预训练和后训练都没到平台期
很长时间OpenAI都是这个想法（预训练快结束了）。在3.7那个时代，我也曾经抱过这个想法。但是后来随着了解越来越深入，我就觉得，还有做的空间的。预训练是一个很系统的框架，告诉你做什么样的事是更有效的。
我觉得都没有到平台期。
到达平台期有两种可能性。一种可能性是技术本身到达了，你明明还有想让模型要干的事，但这俩技术就死活教不会了。另一种可能性是，你想干的事到平台期了。

我觉得现在就是后者。就是说，模型是一个非常聪明的小孩，你可以教它很多东西。但我们人类作为老师，现在还不知道下一个东西该教什么。或者说该怎么去合理地教它，用现在的这些范式。

发布于河南