高飞
26-06-18 14:48 微博认证:至顶科技创始人 AI博主

#模型时代# Noam Shazeer 的核心AI思考

今天Noam Shazeer 离开谷歌,加入OpenAI了。他的推特下边,最热回帖是另外一个Noam(强化学习方向的)。借这个由头,我把他过去一年的两期播客里的发言做了个整理。

1、语言模型是世界上最好的问题

语言模型是世界上最好的问题。理由有三个,都不复杂。第一,它好定义到极致,任务就是给定前面的文字,预测下一个词的概率分布。第二,训练数据近乎无限,整个互联网的文本都是现成的、自带标准答案的练习题,把当前这个词遮住、让模型去猜,就是一道题,这种数据有上万亿条。第三,它是"AI 完全"(AI-complete)的,意思是只要你能把"预测下一个词"这件事做到极好,差不多就能做成任何事。

在很长一段时间里,做深度学习的人觉得机器翻译、计算机视觉更酷,看好语言模型的只是一小撮人,他是逆着主流走的。今天回头看像是显然的押注,当时不是。他赌的是文字这个最浓缩知识的载体,加上大规模的自监督学习。

2、推理便宜到离谱

今天让一个大模型处理一段文字,假设每个 token(模型处理文字的最小单位,约等于一个词或半个词)要做上万亿次运算,按现在的成本,一次运算大约只要 10 的负 18 次方美元,算下来一美元能买到上百万个 token。

这个数字得有参照。买一本平装书来读,相当于一美元一万个 token,所以跟模型聊天比读书还便宜上百倍;比起请人工客服便宜约一万倍;比起请一个软件工程师便宜约一百万倍;找医生、律师也是同一个量级。结论是,现在每个回答用掉的算力少得离谱,还有海量没用上的算力空间。既然便宜这么多倍,就完全可以让模型变贵一点、想得久一点,用更多算力换更聪明的答案,整体还是便宜的。

3、"一万亿美元已经不酷了,一千万亿才酷"

组织信息是个上万亿美元的机会,但一万亿不够大,真正的量级是一千万亿。

重点不是钱。当 AI 能真正替你做事,写代码、解决你自己解不了的问题,而不只是帮你检索信息,它创造的价值会高出好几个数量级。世界 GDP 会因为有了大量"人造工程师"翻很多倍。

4、能合一就别拆开

要不要给每个领域单独做一个模型,医疗一个、法律一个、客服一个,听起来合理。答案相反。

关键词是正向迁移(positive transfer),模型学好一件事,能顺带帮它学好另一件事。只要存在正向迁移,就把能力放进同一个大模型,除非它大到服务成本扛不住;只有当能明确测到负向迁移(学这个反而拖累那个)时,才值得拆。大家担心的负向迁移大多没真的出现。那专用小模型的理由还剩什么,只剩价格。有些任务价值太低,不值得为它付大模型那点调用费,这时候才单独做个小模型。这不是行业共识,是他自己的看法,也一直是活跃的研究方向。

5、混合专家模型不省内存

混合专家模型(Mixture of Experts,MoE)是什么。普通大模型每处理一个词,全部参数都要参与计算;MoE 把模型拆成很多个"专家"子网络,每个输入只激活其中一小部分,模型能做得很大,但单次计算只走过一小块。Noam 是这个架构的共同发明人。

有一个流传的误解。很多人以为既然每次只用到一部分专家,没被用到的那些就不必从内存里取出来,模型因此省内存。不是这样。真正高效的推理是同时处理一大批互不相关的请求,在这种批量下,每个专家其实都被用到了,只是每个专家只过一小部分请求。如果某一步真的只走一个专家,它就在以"批量为一"的方式运行,对现代硬件来说效率极低。所以整个模型还是得放进内存。

还有两点。一是专家其实好理解,早年做的时候能看到某个专家专门负责圆柱形物体的词,另一个专门管日期。二是未来的专家不必一样大,计算量可能相差上百倍甚至上千倍,推理时按需异步地把不同请求送进不同路径。

6、算法是跟着硬件走的

为什么深度学习是现在这个样子?算法跟着硬件走。今天的硬件上,算术运算极其便宜,而把数据搬来搬去相对贵得多。深度学习恰好能拆成大量矩阵乘法,这种运算运算量大、要搬的数据量小,正好踩在硬件便宜的那一头,所以它跑起来了。

顺着这个逻辑,还有一个反直觉的工程现实,精度可以压得极低。早期用 64 位浮点数,现在训练和推理都往更低走,4 位、甚至 1 到 2 位。这件事必须算法和芯片一起设计。单独问算法的人,对方一定说不要低精度,麻烦又有风险;但看清全局会发现,压低精度能让吞吐量对成本的比值大幅改善,模型快好几倍,那点麻烦就值得忍。换了公司,这套"软硬件协同"的思路也是通用的。

7、AI 研究是"炼金术"

今天的 AI 研究大概相当于 15 世纪的化学,也就是炼金术,没人真懂它为什么有效,全靠试。你有个想法,验证的唯一办法就是跑出来看,然后再回头编一套"它为什么 work"的解释,有时对有时错。

一个绝妙的点子,就算出自最聪明的人,成功概率也可能只有 2%,大多数想法都会失败。但同时试 100 个、1000 个、甚至一百万个,就总能撞上几个了不起的。这正是"用 AI 自动跑实验"的意义,把搜索想法并行放大,等于多了无数次试错的机会。

8、模型写下一代模型

Gemini X 写出 Gemini X+1,用正在造的 AI 当工具,去提升造 AI 本身的效率。

这类自我强化的回路不止一个。最重要的是用 AI 加速 AI 研发;另一个是数据飞轮,越多人用、越多反馈,模型越好;还有全球的热情和资金涌入。三个回路叠在一起,进步会从"每代比上代好一点"的线性,变成自我加速。

9、别为"模型能不能有新想法"吵架

有一派批评说,现在这类模型只是在模仿人,不可能产生真正新颖的想法,杨立昆(Yann LeCun)持类似观点。要争就把举证责任丢回给杨立昆,让他先证明自己产生过一个全新的想法。"咱们就把 AI 造出来,把世界的技术水平大幅抬高,帮到人,这就够好了。"

反驳"只是模仿"最硬的例子是数学。数学几乎不需要外部数据,人就是坐在屋里想出来的。牛顿进入隔离、被苹果砸中然后想出引力,还算有点数据;数学更极端,从大致零数据出发,凭空发明出有用的东西。一个只会模仿人类已知的系统,是做不出这件事的。

10、我们没有"用完数据"

有种流行说法是文本数据快用完了。不对。光现有的文本就还能榨出强得多的模型,因为现在的训练方式太浪费。一个参照,一个人一辈子见过的文字大约只有十亿个 token,却已经相当能干,数据效率还有巨大空间。

怎么榨。问题出在训练目标上,今天主流的"根据前文预测下一个词"并不太像人学习的方式。可走的方向包括,在某些词上让模型想得更久,把信息藏起来逼它推断,把图像领域早用的 Dropout(训练时随机遮住一部分输入,逼模型在信息不全时也能学)搬到文本上,对数据反复多轮地学。还有两件不靠外部数据的事最值得做,思想实验和自我对弈。爱因斯坦、牛顿很多结论是想出来的;让程序拿着象棋规则自己跟自己下,就能下得很好。顺着这条,也许能让模型自己跟自己说话,把自己变聪明。

11、行业先需要一个人人能用的入口

2021 年离开谷歌创办 Character.AI。当时还没有 ChatGPT,整个大语言模型行业最缺的,是一个让任何人都能上手、亲自试、发现"这东西对我有什么用"的应用。这件事后来由 ChatGPT 完成了,所有人现在都在跟大模型说话。

更远的未来,人始终会更看重和真人的关系,那在精神上更有意义;但人也会想要更像人的 AI 来提升效率,比如一个随身的"个人 AI 内阁",走到哪都能给你出主意。

12、分析比生成容易

对 AGI 风险的担心程度是"中等"。有一类担忧很难绕开,人类很少能造出一个远比自己聪明、却还能按自己预期行事的东西。

但分析一段文字,似乎比从头生成更容易。就像人识别一样东西比创造它容易,未来很可能用语言模型去检查另一个语言模型的输出,揪出有问题或危险的部分,这会是解决"控制"难题的一条主路。一个半开玩笑的类比,我们一直在创造比自己更聪明的东西,那就是孩子,他们先是比父母聪明,然后变成青少年,接着你就把对齐问题(alignment,让 AI 的目标和人保持一致)解决了。

有一条底线很清楚。目标是把能力交到人手里,所以应该尽量少关闭可能性空间;但如果有人拿这套东西造出一百万个"邪恶的软件工程师",那不叫把能力交给人,因为他们会去伤害别人,他反对。

13、AI 被严重低估,意义从哪来

和很多人相反,被高估的是某些具体的评测榜单,被低估的是 AGI,大语言模型更是被严重低估。人们还把它想成"无非是个上万亿美元的产品",格局小了。

再往后是一个更大的问题,意义。历史上人的意义很多来自生存压力,得拼命干活,家人明天才不会挨饿;今天在发达国家,不那么拼命家人也不会饿死,这部分意义已经少了,人转而从别处寻找。如果 AI 进一步把物质需求的压力拿掉,人类就得重新回答"意义从哪来"。对当下的人,正因为未来人的体力劳动不一定还被需要,你现在做的事才更要紧,想做点有分量的事就趁现在去做;除此之外,做个好人,找到你精神上觉得有意义的事,那也许就是未来人类的目的。

14、长期做对的关键是谦逊

最后一条在方法层面。这么长的职业生命力、又能跨这么多领域,关键词是谦逊。具体到行动上,就是一看到更好的想法,就立刻放下手里正在做的,哪怕那是你自己刚发明出来的。

这件事在现实里有阻力。尤其当资源自上而下分配时,人有动力去维护自己的发明、去多要芯片,没什么动力承认"我手上这个根本不 work,换一个吧"。所以团队既要有自上而下的集中下注,带来协作和大规模训练;也要留出自下而上的空间,让人敢于放弃失败的方向。换了 OpenAI,这条关于怎么做研究、怎么对待自己想法的标准,大概是他带得最稳的东西。

发布于 日本