姬永锋
26-05-27 10:00 微博认证:财经博主

硅谷顶尖AI研究员姚顺宇:别把时间浪费在伺候老登身上(上)

摘自笔记侠

内容来源:张小珺(张小珺商业访谈录)采访人工智能研究员姚顺宇的对话内容整理。

从物理到AI:

别把时间浪费在伺候老登身上

我以前是做学物理的,本科在清华,那时做凝态理论,后来去斯坦福做理论高能物理。
离开斯坦福之后去伯克利,短暂待了两个星期的postdoc(博士后),就离职了,去了Anthropic。在Anthropic待了一年,去年9月底、10月初加入了Gemini。
本科读物理最大的帮助是:
第一,想问题要想清楚。
读书不在于读的多,而在于读的深。读的多,不代表你能发现新东西。但如果你对一件事有和别人不一样的见解,那才是对社会来说更有价值的事。

另一件事是,别太相信纯理论。因为当时能做数值,是因为数值和理论对不上,才仔细研究那个问题。
博士去读了高能物理,这就回到了说,总爱挑战很难的事,有时候也会带来一些不好的结果。我感觉,这个博士对自己学到很多东西、成长很大;但于这个世界,没有产生什么贡献。
高能理论这个方向,足够难,非常非常难。但它不好的在于,不是特别可以验证,没有什么客观评价标准。因为高能理论已经发展到了实验完全追不上的阶段。
一个进步来源,来自于数学的自洽性。
比如你提出一个框架,能和现有的已被验证的更低能标下的理论相自洽。
当然也有一些不科学的因素,当这个领域完全没有实验、没有客观标准,肯定不会只有一个自洽框架出现。这时候谁做的好、谁做的不好,就依赖于领域内一些老登的主观判断。
我也没有被谁伤害,只是在那个领域待时间越长,就越觉得这件事蠢,人这一辈子也没多长,为什么要把自己的时间浪费在伺候老登身上?

我想做有比较客观评价标准的事,要做对这个世界能够产生影响的事。从实际科研产出来说,没有人会说我博士期间的文章不好,但摸着良心说,对这个世界有多大的影响?我觉得几乎没有,几乎为零。
我自己很不满意的。但也没有不满意到,我会担心有人说我在混日子。确实也没在混日子,还是能达到所有外界标准。
达到外界的标准,或者达到一个小的圈子的评价标准,像训练模型一样。
一旦有了这么一个小的圈子,你知道他们的评价标准之后,做得好是很容易的。哪怕不认可这个标准,你是可以达到的。但我后来发现我蒙蔽不了自己,骗不了自己。
博士最后两年就会有这样的感觉。但那时确实也没想清楚,如果不做这个该去做什么?当时觉得,量子计算和AI是两条给小登机会比较多的路。
量子计算的主要瓶颈在实验上。不是怎么设计算法或者算子,更多是怎么在实验上实现它。
那个事反而是我不擅长,跟我相关的反而是AI。更多是你有一个想法,可以用一些数值去验证。这个数值在AI里面,可能就是训练一个模型。这和做物理很像。
感觉AI这个事,也不太需要脑子。我觉得这个行业最重要的特质就是靠谱,就是做事细,对自己做的事负责任。

黑盒、涌现与Scaling Law:

用科学视角看AI

1.这世界上所有东西都是黑盒
这世界上所有东西都是黑盒。哪怕像物理这种。不管是量子力学,还是量子场论,都是描述那个能标下的行为。本质上这个系统还是一个黑盒,你还是不知道它最微观的地方是什么样的动力学。

AI也是一样,黑盒不黑盒,都是相对的。
我们对语言模型的理解,确实没到神经科学手术刀那个级别,不是说能理解到,这个行为是由哪一个neuron(神经元)、哪一个人工神经元的哪一个激发产生的。但在实际能用的语言模型里,都没达到这样的理解。
但也不代表完全没理解。
比如Scaling Law,它就描述了那个尺度下,模型随着大小和数据量,是怎么在perplexity(困惑度)这个指标下变得越来越好的。如果Scaling Law不算是理解的一小部分,那是不是我们也说,对这个世界也完全不理解?
它是一种经验规律。但经验规律和科学规律之间的界限很模糊。热力学那些定律,当年被发现的时候也都是经验规律。后来随着时间发展,慢慢知道了微观机制,就变成了科学规律。
Scaling Law目前肯定还是很经验,但未来当技术变得比较固定,大家越来越多理解它微观过程的时候,会不会变成科学规律?如果这个定义存在的话,是有可能的。
2.智能涌现这个话本身就不太科学
“智能涌现”这个话本身就不太科学,自然也没法用科学的话来表达一个不科学的事。智能涌现,对我来说更多是一种主观的感觉,而不是客观现象。
很多人说智能涌现的时候,脑子里想的是,以前的语言模型只能做某一个方向的事。但现在模型好像可以做所有的事了。但这个事,对我来说更多是一个技术上的涌现,而不是行为上的涌现。

是我们通过研究,发现了该怎么去做这种大规模的训练,能够水平的提升所有能力。这才是更本质的事。
对我来说就是没定义。唯一质的区别就是,有没有发生一个技术上的改变,使得我们可以做scale up(扩展),可以水平的提升所有的能力。这对我来说,是一个良好定义的事。

Anthropic岁月:

小作坊的辉煌与混沌

1.加入一个十人小团队
Anthropic有很多做物理出身,尤其是做理论物理出身的人。就我个人视角来看,主要原因还是connection(人脉联系)。创始团队里当时有三四个比较技术的人,其中有两个现在还在技术一线领导的,都是做物理出身。就这样一直延续下来。
但到现在这个阶段,在我之后,几乎没怎么再招完全没有AI背景的人了。所以是一个时代的产物。
我还找了OpenAI和GDM(Google DeepMind)。但Google DeepMind那时候速度太慢了。Anthropic是因为当时联系了,我的第一任经理,他以前也是做理论物理的。
他当时说:我们在尝试做这种大规模强化学习,有很多科学问题要去理解。那时候(24年8-9月),强化学习还没有像现在这么成熟。
Anthropic当时大体上知道怎么做,但有很多细节需要仔细去研究。他说:有这么一个事,你要不要来面试一下?
大概知道pre-train(预训练)、post-train(后训练)这个流程,但不太知道具体工业级别的语言模型是怎么训练的。
当时觉得这是一个不确定的事,是一个好的机会。自己手搓了一下Andrej Karpathy那个著名的nanoGPT项目,就去面试了,很快拿到了offer。

有两个组的经历来跟我聊。一个是做模型评测,另外一个是做强化学习。我选择了强化学习。那时候公司很小,我去的时候我们那个大的团队才只有10-11个人。
那个大团队叫Horizon,后来几乎是强化学习的方方面面都在这个团队了。我去的那个组是比较偏研究和算法的组。
2.Anthropic的独特优势:技术一号位有公信力
我对Anthropic的印象还是挺一致的。进去之后,这家公司的执行力非常强。它是一个比较自上而下的公司。很多事情决定了之后,就会全力去做。员工之间的氛围也很好,大家都不会藏着掖着。
对于那个bet coding(对编程下重注),我不知道它完全的来源在哪。
我自己能看到的一个显然的来源是,前一代模型Claude 3放了之后,X上有很多人在讨论说:Claude 3好像写code比GPT-4强啊。
那个年代,GPT-4是一个领先的模型。能有一件重要的事比GPT-4强,就很厉害了。这是这公司很强的一点,它执行力非常非常强。一旦给它一个信号,让它觉得是很合理的,那就会铺上去。它没有那些大组织那种冗余。
为什么它的编程比GPT-4好?是有原因的,是一个纯技术原因。但是,我不能确定一开始是随机试着的,还是故意选择的。
你要让我猜,我肯定会觉得是随机试着的。最开始可能是自下而上的,但是后来就变成了一个自上而下的事。
自上而下有一个很难的点,就是你做技术的决策人,必须也得是公司的决策人。你技术上得能服众,另一方面你得能为这个公司负这个责任。
Anthropic有这个条件就是,它的技术上的领导人,其实是公司的cofounder(联合创始人)。像Jared Kaplan和Sam McCandlish,他们自己做这个决定,那是人家的公司,他有权利做这个自上而下的事。这很难。
比如说OpenAI就干不了。Ilya在的时候有可能可以,但后来他好像失去了这个做决策的能力,就走了。
我觉得还是需要技术的,或者公司的leader(领导)有公信力。对我来说,技术1号位有公信力很重要。这个就得看你的团队有没有足够的互相信任。

Anthropic这点也是在初创公司里很强的,创始团队没有一个人离开公司。如果你看他们过去,那是一群真正一起打过仗的人。有很多公司干着干着,连小集体都团结不住了,那你怎么能指望大公司能团结住呢?
大公司和初创公司的打法本来就不一样。初创公司最重要的是找对赛道,能够去很快做一些决策,然后很强力推进。大公司的想法可能是,我能在方方面面都有储备,任何一个事成了我都能跟上。
所以Gemini在Google是一个很传统的、很自下而上的组织。公司层面可能有一些良好定义的框架来引导你,但很多时候,还是你自己来决定自己做什么。
3.Claude 3.7:把简单的事做的比谁都干净
当时就是为了做大尺度的强化学习,用它来提高编程的能力。我们那个组的研究重心就是这个。最终带来的结果,就是大家一块训练了Claude 3.7这个模型。
Claude 3.5有两个版本,你也可以看出,Anthropic这个公司曾经也是没啥产品能力的,居然管两个模型叫一个名字。实际的产品时间线是——3.5、3.5new、3.7。我几乎没参与3.5new,但3.5new就已经看到了编程的迹象。
我进去的时候,大家已经看到了这个事儿能做成且重要,但不太清楚怎么去把它做成。我去的时候,是跟大家一起去研究怎么把它做成。从大的角度来说是靠大尺度强化学习,但有很多技术细节需要去研究。
有好多保密协议的内容。虽然我不能公开去谈,但是,把简单的事儿做的比谁都干净,是最关键的。

有很多花里胡哨的技巧。比如说做强化学习,最简单的算法就是策略梯度。
但不代表这是唯一的算法,还有别的算法。这些复杂性是必须的吗?它们可能带来一些效率上的提升,但也可能带来一些基础设施上的困难。
你怎么去权衡这些事?很多的knowhow(技术诀窍),都在这些细节里,怎么处理这方方面面的细节。
技术的窍门,是一个大家很愿意听,公司又不让你说,但实际又没啥用的事儿。因为很多算法设计非常强的依赖于你的基础设施。
举个例子,在强化学习时候,这个采样,就是给你产生这些轨迹、token(词元)的那个机器,和训练器,这两个机器可能不一样。不同公司这个不一样程度不一样,算法设计也会不一样。
有些公司这两个差异非常大,算法最大的部分可能就是怎么控制这个,怎么让训练稳定。但有的公司基础设施建设特别好,就可以花更多精力在训练效果上。所以很多这种小的窍门,其实没什么用。
现代的AI训练是一个大的系统,要了解这个系统的方方面面,才能有一个全局的认识。什么事是因为什么而变得有用了,而不是说这个事本身有用。
4.Coding为什么重要
对我来说,它重要的原因有二。
一个原因是,coding本身也是做语言模型研究的一部分。
如果你能够把coding做得很好,可能会让你的研究效率翻倍提升,形成一个研究上的飞轮。

另一方面原因,是因为coding是模型使用工具和环境交互的一个很好的抽象。这个抽象的好处在哪?回归信号清晰,数据充分。很难在别的场景下,找到能同时有这两个特质的使用工具场景。
对Anthropic的后训练来说,Claude 3.7是一个分水岭。
在3.7之前,后训练都是处于一个比较小规模,可能就是修修补补模型的状态。也不是不重视,是一开始大家很长时间都没有搞明白后训练该怎么扩大规模。
但在那个阶段,不管是OpenAI还是Anthropic,还是中国的DeepSeek,都意识到了这个事该怎么去扩大规模。
就是得找到合适的环境,这个环境回馈信号足够清晰,本身也是一个很强的数据源。在这个上面能让训练非常稳定,这事就能做成。
那个时刻,OpenAI做的方式和Anthropic差别挺大的。但大的方向上都是找一些回归信号非常清楚、非常客观,数据本身又比较干净,对模型来说是可学习的,在上面做稳定的强化学习训练。
5.预训练和后训练都没到平台期
很长时间OpenAI都是这个想法(预训练快结束了)。在3.7那个时代,我也曾经抱过这个想法。但是后来随着了解越来越深入,我就觉得,还有做的空间的。预训练是一个很系统的框架,告诉你做什么样的事是更有效的。
我觉得都没有到平台期。
到达平台期有两种可能性。一种可能性是技术本身到达了,你明明还有想让模型要干的事,但这俩技术就死活教不会了。另一种可能性是,你想干的事到平台期了。

我觉得现在就是后者。就是说,模型是一个非常聪明的小孩,你可以教它很多东西。但我们人类作为老师,现在还不知道下一个东西该教什么。或者说该怎么去合理地教它,用现在的这些范式。

发布于 河南