Noam Shazeer加入OpenAI

#模型时代# Noam Shazeer 的核心AI思考

今天Noam Shazeer 离开谷歌，加入OpenAI了。他的推特下边，最热回帖是另外一个Noam（强化学习方向的）。借这个由头，我把他过去一年的两期播客里的发言做了个整理。

1、语言模型是世界上最好的问题

语言模型是世界上最好的问题。理由有三个，都不复杂。第一，它好定义到极致，任务就是给定前面的文字，预测下一个词的概率分布。第二，训练数据近乎无限，整个互联网的文本都是现成的、自带标准答案的练习题，把当前这个词遮住、让模型去猜，就是一道题，这种数据有上万亿条。第三，它是"AI 完全"（AI-complete）的，意思是只要你能把"预测下一个词"这件事做到极好，差不多就能做成任何事。

在很长一段时间里，做深度学习的人觉得机器翻译、计算机视觉更酷，看好语言模型的只是一小撮人，他是逆着主流走的。今天回头看像是显然的押注，当时不是。他赌的是文字这个最浓缩知识的载体，加上大规模的自监督学习。

2、推理便宜到离谱

今天让一个大模型处理一段文字，假设每个 token（模型处理文字的最小单位，约等于一个词或半个词）要做上万亿次运算，按现在的成本，一次运算大约只要 10 的负 18 次方美元，算下来一美元能买到上百万个 token。

这个数字得有参照。买一本平装书来读，相当于一美元一万个 token，所以跟模型聊天比读书还便宜上百倍；比起请人工客服便宜约一万倍；比起请一个软件工程师便宜约一百万倍；找医生、律师也是同一个量级。结论是，现在每个回答用掉的算力少得离谱，还有海量没用上的算力空间。既然便宜这么多倍，就完全可以让模型变贵一点、想得久一点，用更多算力换更聪明的答案，整体还是便宜的。

3、"一万亿美元已经不酷了，一千万亿才酷"

组织信息是个上万亿美元的机会，但一万亿不够大，真正的量级是一千万亿。

重点不是钱。当 AI 能真正替你做事，写代码、解决你自己解不了的问题，而不只是帮你检索信息，它创造的价值会高出好几个数量级。世界 GDP 会因为有了大量"人造工程师"翻很多倍。

4、能合一就别拆开

要不要给每个领域单独做一个模型，医疗一个、法律一个、客服一个，听起来合理。答案相反。

关键词是正向迁移（positive transfer），模型学好一件事，能顺带帮它学好另一件事。只要存在正向迁移，就把能力放进同一个大模型，除非它大到服务成本扛不住；只有当能明确测到负向迁移（学这个反而拖累那个）时，才值得拆。大家担心的负向迁移大多没真的出现。那专用小模型的理由还剩什么，只剩价格。有些任务价值太低，不值得为它付大模型那点调用费，这时候才单独做个小模型。这不是行业共识，是他自己的看法，也一直是活跃的研究方向。

5、混合专家模型不省内存

混合专家模型（Mixture of Experts，MoE）是什么。普通大模型每处理一个词，全部参数都要参与计算；MoE 把模型拆成很多个"专家"子网络，每个输入只激活其中一小部分，模型能做得很大，但单次计算只走过一小块。Noam 是这个架构的共同发明人。

有一个流传的误解。很多人以为既然每次只用到一部分专家，没被用到的那些就不必从内存里取出来，模型因此省内存。不是这样。真正高效的推理是同时处理一大批互不相关的请求，在这种批量下，每个专家其实都被用到了，只是每个专家只过一小部分请求。如果某一步真的只走一个专家，它就在以"批量为一"的方式运行，对现代硬件来说效率极低。所以整个模型还是得放进内存。

还有两点。一是专家其实好理解，早年做的时候能看到某个专家专门负责圆柱形物体的词，另一个专门管日期。二是未来的专家不必一样大，计算量可能相差上百倍甚至上千倍，推理时按需异步地把不同请求送进不同路径。

6、算法是跟着硬件走的

为什么深度学习是现在这个样子？算法跟着硬件走。今天的硬件上，算术运算极其便宜，而把数据搬来搬去相对贵得多。深度学习恰好能拆成大量矩阵乘法，这种运算运算量大、要搬的数据量小，正好踩在硬件便宜的那一头，所以它跑起来了。

顺着这个逻辑，还有一个反直觉的工程现实，精度可以压得极低。早期用 64 位浮点数，现在训练和推理都往更低走，4 位、甚至 1 到 2 位。这件事必须算法和芯片一起设计。单独问算法的人，对方一定说不要低精度，麻烦又有风险；但看清全局会发现，压低精度能让吞吐量对成本的比值大幅改善，模型快好几倍，那点麻烦就值得忍。换了公司，这套"软硬件协同"的思路也是通用的。

7、AI 研究是"炼金术"

今天的 AI 研究大概相当于 15 世纪的化学，也就是炼金术，没人真懂它为什么有效，全靠试。你有个想法，验证的唯一办法就是跑出来看，然后再回头编一套"它为什么 work"的解释，有时对有时错。

一个绝妙的点子，就算出自最聪明的人，成功概率也可能只有 2%，大多数想法都会失败。但同时试 100 个、1000 个、甚至一百万个，就总能撞上几个了不起的。这正是"用 AI 自动跑实验"的意义，把搜索想法并行放大，等于多了无数次试错的机会。

8、模型写下一代模型

Gemini X 写出 Gemini X+1，用正在造的 AI 当工具，去提升造 AI 本身的效率。

这类自我强化的回路不止一个。最重要的是用 AI 加速 AI 研发；另一个是数据飞轮，越多人用、越多反馈，模型越好；还有全球的热情和资金涌入。三个回路叠在一起，进步会从"每代比上代好一点"的线性，变成自我加速。

9、别为"模型能不能有新想法"吵架

有一派批评说，现在这类模型只是在模仿人，不可能产生真正新颖的想法，杨立昆（Yann LeCun）持类似观点。要争就把举证责任丢回给杨立昆，让他先证明自己产生过一个全新的想法。"咱们就把 AI 造出来，把世界的技术水平大幅抬高，帮到人，这就够好了。"

反驳"只是模仿"最硬的例子是数学。数学几乎不需要外部数据，人就是坐在屋里想出来的。牛顿进入隔离、被苹果砸中然后想出引力，还算有点数据；数学更极端，从大致零数据出发，凭空发明出有用的东西。一个只会模仿人类已知的系统，是做不出这件事的。

10、我们没有"用完数据"

有种流行说法是文本数据快用完了。不对。光现有的文本就还能榨出强得多的模型，因为现在的训练方式太浪费。一个参照，一个人一辈子见过的文字大约只有十亿个 token，却已经相当能干，数据效率还有巨大空间。

怎么榨。问题出在训练目标上，今天主流的"根据前文预测下一个词"并不太像人学习的方式。可走的方向包括，在某些词上让模型想得更久，把信息藏起来逼它推断，把图像领域早用的 Dropout（训练时随机遮住一部分输入，逼模型在信息不全时也能学）搬到文本上，对数据反复多轮地学。还有两件不靠外部数据的事最值得做，思想实验和自我对弈。爱因斯坦、牛顿很多结论是想出来的；让程序拿着象棋规则自己跟自己下，就能下得很好。顺着这条，也许能让模型自己跟自己说话，把自己变聪明。

11、行业先需要一个人人能用的入口

2021 年离开谷歌创办 Character.AI。当时还没有 ChatGPT，整个大语言模型行业最缺的，是一个让任何人都能上手、亲自试、发现"这东西对我有什么用"的应用。这件事后来由 ChatGPT 完成了，所有人现在都在跟大模型说话。

更远的未来，人始终会更看重和真人的关系，那在精神上更有意义；但人也会想要更像人的 AI 来提升效率，比如一个随身的"个人 AI 内阁"，走到哪都能给你出主意。

12、分析比生成容易

对 AGI 风险的担心程度是"中等"。有一类担忧很难绕开，人类很少能造出一个远比自己聪明、却还能按自己预期行事的东西。

但分析一段文字，似乎比从头生成更容易。就像人识别一样东西比创造它容易，未来很可能用语言模型去检查另一个语言模型的输出，揪出有问题或危险的部分，这会是解决"控制"难题的一条主路。一个半开玩笑的类比，我们一直在创造比自己更聪明的东西，那就是孩子，他们先是比父母聪明，然后变成青少年，接着你就把对齐问题（alignment，让 AI 的目标和人保持一致）解决了。

有一条底线很清楚。目标是把能力交到人手里，所以应该尽量少关闭可能性空间；但如果有人拿这套东西造出一百万个"邪恶的软件工程师"，那不叫把能力交给人，因为他们会去伤害别人，他反对。

13、AI 被严重低估，意义从哪来

和很多人相反，被高估的是某些具体的评测榜单，被低估的是 AGI，大语言模型更是被严重低估。人们还把它想成"无非是个上万亿美元的产品"，格局小了。

再往后是一个更大的问题，意义。历史上人的意义很多来自生存压力，得拼命干活，家人明天才不会挨饿；今天在发达国家，不那么拼命家人也不会饿死，这部分意义已经少了，人转而从别处寻找。如果 AI 进一步把物质需求的压力拿掉，人类就得重新回答"意义从哪来"。对当下的人，正因为未来人的体力劳动不一定还被需要，你现在做的事才更要紧，想做点有分量的事就趁现在去做；除此之外，做个好人，找到你精神上觉得有意义的事，那也许就是未来人类的目的。

14、长期做对的关键是谦逊

最后一条在方法层面。这么长的职业生命力、又能跨这么多领域，关键词是谦逊。具体到行动上，就是一看到更好的想法，就立刻放下手里正在做的，哪怕那是你自己刚发明出来的。

这件事在现实里有阻力。尤其当资源自上而下分配时，人有动力去维护自己的发明、去多要芯片，没什么动力承认"我手上这个根本不 work，换一个吧"。所以团队既要有自上而下的集中下注，带来协作和大规模训练；也要留出自下而上的空间，让人敢于放弃失败的方向。换了 OpenAI，这条关于怎么做研究、怎么对待自己想法的标准，大概是他带得最稳的东西。

发布于日本