Lex Fridman谈大模型格局

#模型时代#Lex Fridman 4小时AI最新播客：两位顶尖研究者眼中的2026年大模型格局

Lex Fridman Podcast第490期请来了两位在开源AI圈极具影响力的人物：Sebastian Raschka是《从零构建大语言模型》作者，Nathan Lambert是Allen Institute for AI的后训练负责人、RLHF领域权威。三人坐在一起，从DeepSeek引爆的中美AI竞争聊起，一路谈到Scaling Laws是否已死、后训练的技术细节、AI入门路径，最后落到AGI时间线和人类文明的未来。

说到这，我早买了《从零构建大语言模型》，但是一直放在书架上还没看，买过就是看过的毛病很难改啊。

两位嘉宾都是一线实操者。Nathan刚带队训练完OLMo-3，Sebastian每周都在用各种模型写代码。

一、模型竞争：谁在领先？

1、中国开源模型的崛起不是DeepSeek一家的事

Nathan观察到一个关键变化：DeepSeek在2025年初引爆开源模型热潮后，整个中国AI生态被激活了。智谱AI、MiniMax、Moonshot（Kimi）等公司都在快速跟进，有些已经在特定任务上超过DeepSeek。"DeepSeek正在失去中国开源之王的位置"，但这不是因为DeepSeek变差了，而是其他公司直接用了DeepSeek公开的架构和方法。

中国模型选择开源的逻辑很清晰：美国企业出于安全顾虑不会付费订阅中国公司的API，但如果模型开源，用户可以在本地跑，数据不用传到中国。这是打开美国市场的唯一通道。

2、Claude 4.5的代码能力成了现象级话题

Nathan坦言自己几乎所有哲学讨论和代码工作都用Claude Opus 4.5，而且"永远开extended thinking（扩展思考模式）"。Claude Code的体验被形容为"温暖而有吸引力"，相比之下OpenAI的Codex"能力差不多但手感粗糙"。

但Lex提醒了一个重要区别：X/Twitter上的热度不等于真实用户量。ChatGPT和Gemini面向的是更广泛的普通用户群体，他们只想解决日常问题，对代码能力没那么敏感。

3、每个模型都有自己的甜蜜点

三人实际使用习惯的分歧很有意思：
• Sebastian日常查信息用ChatGPT非思考模式（快），写完东西后用Pro模式让它做全面检查（不急）
• Nathan"无法忍受"非思考模式，所有信息查询都用GPT-5.2 thinking或pro，经常同时开五个pro查询
• Lex用Gemini做长上下文的大海捞针任务，用Grok-4 Heavy做其他模型解决不了的硬核debug

"你用一个模型直到它让你失望为止，然后换一个"——这和人们选择浏览器、文本编辑器的逻辑一样。

二、技术内核：Scaling Laws真的死了吗？

1、三种scaling都还在起作用，只是低垂果实被摘完了

Nathan给出了一个清晰的框架：
• 预训练scaling：模型越大、数据越多，held-out（留出的测试集）预测准确率越高。这个关系持续了13个数量级的计算量，"为什么会突然停止？"
• 强化学习scaling：o1证明了增加RL训练计算量能带来线性的性能提升
• 推理时scaling：让模型生成更多token来思考问题

问题不是scaling失效了，而是预训练变得太贵。DeepSeek-V3的预训练成本大约500万美元（按云计算市场价），但这只是一次性成本。真正烧钱的是服务上亿用户的推理成本——可能是数十亿美元。

2、RLVR是这一年最重要的技术突破

RLVR（Reinforcement Learning with Verifiable Rewards，可验证奖励的强化学习）的核心逻辑：给模型一个问题和标准答案，让它自己想办法得出正确答案。不限制中间过程，只看最终结果对不对。

Sebastian分享了一个惊人的实验：Qwen 2.5基础模型在MATH-500上的准确率是15%，只用50步RLVR训练——几分钟时间——就提升到50%。"你不可能在50步里学到任何数学知识，这说明知识早就在预训练里了，RL只是把它解锁出来。"

这解释了为什么现在的模型会"思考"很长时间：DeepSeek-R1论文显示，训练时间越长，模型的回复就越长。模型学会了自我纠错——"啊，我做错了，让我再试一次"——这种行为自然涌现出来，没有人专门训练它这样做。

3、预训练、中训练、后训练各司其职

Sebastian把这三个步骤比喻成人类学习的不同阶段：
• 预训练：海量阅读，吸收知识。现在不只是原始数据，还有大量合成数据——把Wikipedia文章改写成问答形式，把混乱的内容整理成结构化格式
• 中训练：专项训练。比如专门用长文档训练，让模型学会处理长上下文。放在中间是因为神经网络有灾难性遗忘问题（学新东西会忘旧东西），你希望最后学到的是高质量内容
• 后训练：技能解锁。用SFT（监督微调）、DPO（直接偏好优化）、RLVR等方法让模型学会如何运用知识解决问题

Nathan补充了一个关键洞察：RLHF和RLVR有本质区别。RLHF是风格调优，没有scaling law——你不能无限增加训练量来获得更好的风格。但RLVR有scaling law，你可以让训练跑更长时间来获得更好的准确率。这决定了未来计算资源的分配。

三、架构演进：Transformer真的没变吗？

1、从GPT-2到今天，核心架构惊人地相似

Sebastian做过一个详细对比：如果你拿一个GPT-2模型，依次加上Mixture of Experts、Group Query Attention、RMSNorm替代LayerNorm、换一个激活函数——你就得到了一个现代大模型的架构。"这些都不是根本性改变，只是调参。"

他在书的bonus材料里演示过：从GPT-2出发，逐步添加组件，就能变成OLMo、Llama 3等各种模型。"这是一个血统谱系。"

2、真正的进步在系统层面

Nathan指出了一个容易被忽视的维度：代码库和系统优化的变化是巨大的。NVIDIA的FP8、FP4训练让每秒处理的token数从10K跳到13K。这意味着更快的实验迭代，更快地找到最优配置。"你今天训练GPT-MoE 8x7B的wall clock时间（真实世界耗时），可能比当年训练GPT-2还短。"

3、替代架构正在涌现，但还没威胁到transformer

文本扩散模型是一个有意思的方向：不是一个token一个token地生成，而是同时生成所有token，然后迭代去噪。Google已经宣布了Gemini Diffusion，承诺同等质量下推理速度更快。

但Sebastian点出了关键限制：推理任务和工具调用是串行的——你需要调用代码解释器获取中间结果，这和并行生成的范式冲突。扩散模型可能适合快速生成代码diff（代码差异/改动）这种场景，但不会取代通用大模型。

四、入行指南：普通人如何进入AI领域

1、从零开始搭建一个小模型是必经之路

Sebastian的建议很明确：找一个能在单卡上跑的模型，从头实现一遍。目的不是得到一个可用的模型，而是理解每一个组件。预训练怎么做的？Attention是什么？为什么要用KV cache（键值缓存）？

代码的好处是"它不撒谎"。论文里的公式可能有错误，你读的时候发现不了；但代码跑不通你就知道有问题。更妙的是，你可以把自己的实现和Hugging Face Transformers库的输出做对比——如果数值完全一致，说明你的实现是对的。

2、找到一个窄到不能再窄的研究方向

Nathan的路径建议：做完基础练习后，找一个特别窄的领域深挖。"可能只有三篇论文需要读，而且作者很可能会回复你的邮件。"

他举了自己的例子：对character training（如何让模型幽默、讽刺、严肃）产生了兴趣，结果有个牛津的学生主动联系他做这个方向，最后真的发了论文。"世界上可能只有两三个人对这个话题非常感兴趣。"

这种策略的关键是：你需要预判模型的能力边界会往哪个方向移动。"如果我现在开始一个研究项目，我需要思考8个月后的模型会在哪些地方遇到困难。"

3、学术界vs工业界的取舍

Nathan给出了一个冷酷的现实：OpenAI员工的平均年薪超过100万美元股票。对于美国普通家庭来说，进入这些AI实验室是改变人生的机会。但代价是你会变成一颗螺丝钉，发表不了论文，得不到署名。

Sebastian补充说：这种情况其实没有太大变化。十几年前也是一样，教授们为学生跑去Google伤心。但学术界给你的是自由和意义感——Nathan观察到，"做教授的朋友平均来说比在前沿实验室的朋友更快乐。"

五、产业格局：谁会活下来？

1、Meta的Llama处境尴尬

Nathan直言"RIP Llama"。问题不是模型本身，而是组织内部政治斗争和激励错位。Llama 4为了刷榜训练了巨大的模型，但普通用户根本跑不动；同时又没有出小模型让社区使用。"高管们太兴奋于上头条，忘了开源的初衷是让人用，不是让人仰望。"

2、中国开源填补了美国的空白

Nathan在2025年7月发起了ATOM项目（American Truly Open Models），核心论点是：如果美国不投资开源模型，AI研究的基础设施就会被中国模型主导。这不是国家安全问题，而是创新主导权问题——研究者从什么模型出发，就会把价值带到哪里。

AI2从NSF（美国国家科学基金会）拿到了1亿美元的4年拨款——这是NSF有史以来最大的计算机科学资助。但Nathan强调，一家机构不够，需要多个组织形成生态。

3、NVIDIA的护城河不是芯片，是CUDA

Sebastian的判断：NVIDIA的真正壁垒是过去二十年建立的CUDA（GPU编程平台）生态系统。他还是研究生的时候就在用Tesla GPU做分子动力学模拟了。这种累积的兼容性是新玩家很难复制的。

但有一个变量：如果LLM让复制CUDA变得更容易呢？花15年建立的生态系统，有了AI辅助编程可能几年就能追上。

六、AGI时间线：清醒还是狂热？

1、"完全自动化编程"可能是个伪命题

Nathan对AI 2027报告的singularity叙事持怀疑态度。他的核心论点是AI能力的"锯齿状"——模型在某些任务上超人，在另一些任务上很蠢。

具体到编程：Claude已经能很好地处理传统ML系统和前端开发，但分布式训练代码写得很差，因为这方面的训练数据太少。这种不均衡会长期存在。

2、更现实的预测：$2000/月的订阅会出现

Nathan预测2026年会出现更贵的订阅层级。我们已经从$20涨到了$200，再涨10倍到$2000并非不可能——只要有一小群用户愿意为前沿能力付费。

3、真正的经济影响可能被低估了

Lex在对话末尾提出了一个被忽视的角度：LLM让全人类的知识变得可及。这和Google搜索是本质不同的体验——你可以问任何问题并得到答案。这种影响跨越时间积累，可能才是真正的GDP增长来源。不是某一年的跳跃，而是"这就是我们最终到达火星的方式"。

总结

这期播客最有价值的地方，是两位研究者基于实操经验给出的判断，而不是媒体热点的复读。几个核心takeaway：
• Scaling laws没死，只是预训练太贵了，低垂果实转移到了后训练和推理时scaling
• RLVR是解锁模型能力的关键，RL不教知识，只教技能
• 架构变化没有想象中大，系统优化和数据工程才是真正的战场
• 入行AI最好的方式是从零搭建一个小模型，然后找一个极窄的方向深挖
• 开源模型的意义不是追求最强，而是让研究和创新能够发生在你想要的地方

核心归纳

Q1: 预训练scaling是不是已经到头了？
不是。预训练的scaling law持续了13个数量级的计算量，没有理由认为它会突然失效。但现实是预训练太贵了——训练一个模型500万美元，服务上亿用户可能要数十亿美元。所以注意力转向了后训练和推理时scaling，因为这些地方的低垂果实更容易摘。

Q2: RLVR为什么重要？
RLVR证明了模型的知识和技能可以分离。知识在预训练阶段就已经存在，RLVR只是"解锁"它。Qwen 2.5基础模型用50步RLVR训练就从15%准确率跳到50%——50步不可能学到任何数学知识，只能说明知识早就在那里了。这意味着后训练的潜力比我们想象的大得多。

Q3: 普通人怎么进入AI领域？
从零开始实现一个能在单卡上跑的小模型，理解每一个组件。然后找一个极窄的研究方向深挖——可能只有三篇论文要读，作者很可能会回复你的邮件。关键是预判能力边界的移动方向：你现在开始的项目，需要瞄准8个月后模型还会遇到困难的地方。

发布于北京