高飞 26-02-01 20:17
微博认证:至顶科技创始人 AI博主

#模型时代#Lex Fridman 4小时AI最新播客:两位顶尖研究者眼中的2026年大模型格局

Lex Fridman Podcast第490期请来了两位在开源AI圈极具影响力的人物:Sebastian Raschka是《从零构建大语言模型》作者,Nathan Lambert是Allen Institute for AI的后训练负责人、RLHF领域权威。三人坐在一起,从DeepSeek引爆的中美AI竞争聊起,一路谈到Scaling Laws是否已死、后训练的技术细节、AI入门路径,最后落到AGI时间线和人类文明的未来。

说到这,我早买了《从零构建大语言模型》,但是一直放在书架上还没看,买过就是看过的毛病很难改啊。

两位嘉宾都是一线实操者。Nathan刚带队训练完OLMo-3,Sebastian每周都在用各种模型写代码。

一、模型竞争:谁在领先?

1、中国开源模型的崛起不是DeepSeek一家的事

Nathan观察到一个关键变化:DeepSeek在2025年初引爆开源模型热潮后,整个中国AI生态被激活了。智谱AI、MiniMax、Moonshot(Kimi)等公司都在快速跟进,有些已经在特定任务上超过DeepSeek。"DeepSeek正在失去中国开源之王的位置",但这不是因为DeepSeek变差了,而是其他公司直接用了DeepSeek公开的架构和方法。

中国模型选择开源的逻辑很清晰:美国企业出于安全顾虑不会付费订阅中国公司的API,但如果模型开源,用户可以在本地跑,数据不用传到中国。这是打开美国市场的唯一通道。

2、Claude 4.5的代码能力成了现象级话题

Nathan坦言自己几乎所有哲学讨论和代码工作都用Claude Opus 4.5,而且"永远开extended thinking(扩展思考模式)"。Claude Code的体验被形容为"温暖而有吸引力",相比之下OpenAI的Codex"能力差不多但手感粗糙"。

但Lex提醒了一个重要区别:X/Twitter上的热度不等于真实用户量。ChatGPT和Gemini面向的是更广泛的普通用户群体,他们只想解决日常问题,对代码能力没那么敏感。

3、每个模型都有自己的甜蜜点

三人实际使用习惯的分歧很有意思:
• Sebastian日常查信息用ChatGPT非思考模式(快),写完东西后用Pro模式让它做全面检查(不急)
• Nathan"无法忍受"非思考模式,所有信息查询都用GPT-5.2 thinking或pro,经常同时开五个pro查询
• Lex用Gemini做长上下文的大海捞针任务,用Grok-4 Heavy做其他模型解决不了的硬核debug

"你用一个模型直到它让你失望为止,然后换一个"——这和人们选择浏览器、文本编辑器的逻辑一样。

二、技术内核:Scaling Laws真的死了吗?

1、三种scaling都还在起作用,只是低垂果实被摘完了

Nathan给出了一个清晰的框架:
• 预训练scaling:模型越大、数据越多,held-out(留出的测试集)预测准确率越高。这个关系持续了13个数量级的计算量,"为什么会突然停止?"
• 强化学习scaling:o1证明了增加RL训练计算量能带来线性的性能提升
• 推理时scaling:让模型生成更多token来思考问题

问题不是scaling失效了,而是预训练变得太贵。DeepSeek-V3的预训练成本大约500万美元(按云计算市场价),但这只是一次性成本。真正烧钱的是服务上亿用户的推理成本——可能是数十亿美元。

2、RLVR是这一年最重要的技术突破

RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励的强化学习)的核心逻辑:给模型一个问题和标准答案,让它自己想办法得出正确答案。不限制中间过程,只看最终结果对不对。

Sebastian分享了一个惊人的实验:Qwen 2.5基础模型在MATH-500上的准确率是15%,只用50步RLVR训练——几分钟时间——就提升到50%。"你不可能在50步里学到任何数学知识,这说明知识早就在预训练里了,RL只是把它解锁出来。"

这解释了为什么现在的模型会"思考"很长时间:DeepSeek-R1论文显示,训练时间越长,模型的回复就越长。模型学会了自我纠错——"啊,我做错了,让我再试一次"——这种行为自然涌现出来,没有人专门训练它这样做。

3、预训练、中训练、后训练各司其职

Sebastian把这三个步骤比喻成人类学习的不同阶段:
• 预训练:海量阅读,吸收知识。现在不只是原始数据,还有大量合成数据——把Wikipedia文章改写成问答形式,把混乱的内容整理成结构化格式
• 中训练:专项训练。比如专门用长文档训练,让模型学会处理长上下文。放在中间是因为神经网络有灾难性遗忘问题(学新东西会忘旧东西),你希望最后学到的是高质量内容
• 后训练:技能解锁。用SFT(监督微调)、DPO(直接偏好优化)、RLVR等方法让模型学会如何运用知识解决问题

Nathan补充了一个关键洞察:RLHF和RLVR有本质区别。RLHF是风格调优,没有scaling law——你不能无限增加训练量来获得更好的风格。但RLVR有scaling law,你可以让训练跑更长时间来获得更好的准确率。这决定了未来计算资源的分配。

三、架构演进:Transformer真的没变吗?

1、从GPT-2到今天,核心架构惊人地相似

Sebastian做过一个详细对比:如果你拿一个GPT-2模型,依次加上Mixture of Experts、Group Query Attention、RMSNorm替代LayerNorm、换一个激活函数——你就得到了一个现代大模型的架构。"这些都不是根本性改变,只是调参。"

他在书的bonus材料里演示过:从GPT-2出发,逐步添加组件,就能变成OLMo、Llama 3等各种模型。"这是一个血统谱系。"

2、真正的进步在系统层面

Nathan指出了一个容易被忽视的维度:代码库和系统优化的变化是巨大的。NVIDIA的FP8、FP4训练让每秒处理的token数从10K跳到13K。这意味着更快的实验迭代,更快地找到最优配置。"你今天训练GPT-MoE 8x7B的wall clock时间(真实世界耗时),可能比当年训练GPT-2还短。"

3、替代架构正在涌现,但还没威胁到transformer

文本扩散模型是一个有意思的方向:不是一个token一个token地生成,而是同时生成所有token,然后迭代去噪。Google已经宣布了Gemini Diffusion,承诺同等质量下推理速度更快。

但Sebastian点出了关键限制:推理任务和工具调用是串行的——你需要调用代码解释器获取中间结果,这和并行生成的范式冲突。扩散模型可能适合快速生成代码diff(代码差异/改动)这种场景,但不会取代通用大模型。

四、入行指南:普通人如何进入AI领域

1、从零开始搭建一个小模型是必经之路

Sebastian的建议很明确:找一个能在单卡上跑的模型,从头实现一遍。目的不是得到一个可用的模型,而是理解每一个组件。预训练怎么做的?Attention是什么?为什么要用KV cache(键值缓存)?

代码的好处是"它不撒谎"。论文里的公式可能有错误,你读的时候发现不了;但代码跑不通你就知道有问题。更妙的是,你可以把自己的实现和Hugging Face Transformers库的输出做对比——如果数值完全一致,说明你的实现是对的。

2、找到一个窄到不能再窄的研究方向

Nathan的路径建议:做完基础练习后,找一个特别窄的领域深挖。"可能只有三篇论文需要读,而且作者很可能会回复你的邮件。"

他举了自己的例子:对character training(如何让模型幽默、讽刺、严肃)产生了兴趣,结果有个牛津的学生主动联系他做这个方向,最后真的发了论文。"世界上可能只有两三个人对这个话题非常感兴趣。"

这种策略的关键是:你需要预判模型的能力边界会往哪个方向移动。"如果我现在开始一个研究项目,我需要思考8个月后的模型会在哪些地方遇到困难。"

3、学术界vs工业界的取舍

Nathan给出了一个冷酷的现实:OpenAI员工的平均年薪超过100万美元股票。对于美国普通家庭来说,进入这些AI实验室是改变人生的机会。但代价是你会变成一颗螺丝钉,发表不了论文,得不到署名。

Sebastian补充说:这种情况其实没有太大变化。十几年前也是一样,教授们为学生跑去Google伤心。但学术界给你的是自由和意义感——Nathan观察到,"做教授的朋友平均来说比在前沿实验室的朋友更快乐。"

五、产业格局:谁会活下来?

1、Meta的Llama处境尴尬

Nathan直言"RIP Llama"。问题不是模型本身,而是组织内部政治斗争和激励错位。Llama 4为了刷榜训练了巨大的模型,但普通用户根本跑不动;同时又没有出小模型让社区使用。"高管们太兴奋于上头条,忘了开源的初衷是让人用,不是让人仰望。"

2、中国开源填补了美国的空白

Nathan在2025年7月发起了ATOM项目(American Truly Open Models),核心论点是:如果美国不投资开源模型,AI研究的基础设施就会被中国模型主导。这不是国家安全问题,而是创新主导权问题——研究者从什么模型出发,就会把价值带到哪里。

AI2从NSF(美国国家科学基金会)拿到了1亿美元的4年拨款——这是NSF有史以来最大的计算机科学资助。但Nathan强调,一家机构不够,需要多个组织形成生态。

3、NVIDIA的护城河不是芯片,是CUDA

Sebastian的判断:NVIDIA的真正壁垒是过去二十年建立的CUDA(GPU编程平台)生态系统。他还是研究生的时候就在用Tesla GPU做分子动力学模拟了。这种累积的兼容性是新玩家很难复制的。

但有一个变量:如果LLM让复制CUDA变得更容易呢?花15年建立的生态系统,有了AI辅助编程可能几年就能追上。

六、AGI时间线:清醒还是狂热?

1、"完全自动化编程"可能是个伪命题

Nathan对AI 2027报告的singularity叙事持怀疑态度。他的核心论点是AI能力的"锯齿状"——模型在某些任务上超人,在另一些任务上很蠢。

具体到编程:Claude已经能很好地处理传统ML系统和前端开发,但分布式训练代码写得很差,因为这方面的训练数据太少。这种不均衡会长期存在。

2、更现实的预测:$2000/月的订阅会出现

Nathan预测2026年会出现更贵的订阅层级。我们已经从$20涨到了$200,再涨10倍到$2000并非不可能——只要有一小群用户愿意为前沿能力付费。

3、真正的经济影响可能被低估了

Lex在对话末尾提出了一个被忽视的角度:LLM让全人类的知识变得可及。这和Google搜索是本质不同的体验——你可以问任何问题并得到答案。这种影响跨越时间积累,可能才是真正的GDP增长来源。不是某一年的跳跃,而是"这就是我们最终到达火星的方式"。

总结

这期播客最有价值的地方,是两位研究者基于实操经验给出的判断,而不是媒体热点的复读。几个核心takeaway:
• Scaling laws没死,只是预训练太贵了,低垂果实转移到了后训练和推理时scaling
• RLVR是解锁模型能力的关键,RL不教知识,只教技能
• 架构变化没有想象中大,系统优化和数据工程才是真正的战场
• 入行AI最好的方式是从零搭建一个小模型,然后找一个极窄的方向深挖
• 开源模型的意义不是追求最强,而是让研究和创新能够发生在你想要的地方

核心归纳

Q1: 预训练scaling是不是已经到头了?
不是。预训练的scaling law持续了13个数量级的计算量,没有理由认为它会突然失效。但现实是预训练太贵了——训练一个模型500万美元,服务上亿用户可能要数十亿美元。所以注意力转向了后训练和推理时scaling,因为这些地方的低垂果实更容易摘。

Q2: RLVR为什么重要?
RLVR证明了模型的知识和技能可以分离。知识在预训练阶段就已经存在,RLVR只是"解锁"它。Qwen 2.5基础模型用50步RLVR训练就从15%准确率跳到50%——50步不可能学到任何数学知识,只能说明知识早就在那里了。这意味着后训练的潜力比我们想象的大得多。

Q3: 普通人怎么进入AI领域?
从零开始实现一个能在单卡上跑的小模型,理解每一个组件。然后找一个极窄的研究方向深挖——可能只有三篇论文要读,作者很可能会回复你的邮件。关键是预判能力边界的移动方向:你现在开始的项目,需要瞄准8个月后模型还会遇到困难的地方。

发布于 北京