宝玉xp 26-02-01 14:33
微博认证:前微软Asp.Net最有价值专家 2025微博年度新知博主 科技博主

【栏目对话和访谈】Sebastian 和 Nathan 在 Lex Fridman 播客深度解读 AI 现状:中美竞争、模型对比、规模定律、AGI 时间线
完整版本(太长放不下):http://t.cn/AXqgcG6y

Sebastian Raschka 和 Nathan Lambert 坐在 Lex Fridman 的播客里,聊了整整 4 个小时。

Sebastian 是《从零构建大语言模型》一书的作者,那本书教你从零开始写一个 GPT-2。Nathan 是艾伦人工智能研究所(AI2)的后训练负责人,写了业界最权威的 RLHF(基于人类反馈的强化学习)书籍。两个人都是真正在一线做研究、训练模型的人。

这期播客覆盖了 AI 领域几乎所有热门话题:中美竞争、模型对比、规模定律(Scaling Laws,即模型性能随计算量增长的规律)、训练流程、AGI(通用人工智能)时间线、程序员是否会被取代……信息密度极高。以下是按访谈顺序整理的核心内容。

【1】中美 AI 竞争:谁在赢?

Lex 开场就抛了一个问题:国际层面,中国还是美国在赢?

Sebastian 的回答很谨慎:“赢”这个词太宽泛了。他认为 DeepSeek 赢得了开源社区的心,因为他们真的把模型放出来了。但长期来看,不会有任何一家公司独占某种技术——研究者频繁跳槽,想法会流动。真正的差异化因素是预算和硬件。

Nathan 补充了一个有趣的观察:Claude 4.5 的热度是有机增长的,而几个月前 Gemini 3 发布时营销攻势很猛,但热度很快就被 Claude 盖过了。

“差异化程度在降低,”他说。各家的想法空间很流通,但 Anthropic 在代码上的长期押注正在收到回报。

关于中国公司,Nathan 指出 DeepSeek 可能正在“失去王冠”——智谱 AI、MiniMax、月之暗面等公司在 2025 年下半年表现更加亮眼。DeepSeek 启动了中国的开源运动,就像 ChatGPT 启动了美国的聊天机器人运动一样。

“中国现在有大量科技公司在发布非常强的前沿开源模型。”

Lex 追问:中国公司会持续开源多久?

Nathan 的判断是:至少几年。中国公司很清楚,美国顶级科技公司出于安全顾虑不会购买中国 API 服务。开源模型是一种“曲线进入”美国市场的方式——用户在本地运行,既获得分发又不触发安全红线。

“他们对此非常现实,而且正在奏效。”

【2】ChatGPT、Claude、Gemini、Grok:谁更强?

Lex 问:2025 年哪个模型赢了?2026 年谁会赢?

Nathan 坦言很难押注 Gemini 超过 ChatGPT,因为 OpenAI 是市场领先者,在科技行业这有巨大优势。但 Gemini 的势头确实在上升。他的判断是:Gemini 会继续蚕食 ChatGPT 的份额,Anthropic 会在软件和企业端持续成功。

关于个人使用习惯,三人的偏好完全不同:

Sebastian:大多数时候用 ChatGPT 快速查东西,用非思考的快速模式。偶尔用 Pro 模式做深度检查,比如让它彻底审查一篇文章的引用、格式、逻辑。

Nathan:从不碰 GPT-5 的非思考模式。信息检索一律用 GPT-5.2 思考模式或 Pro,快速问题用 Gemini,代码和哲学讨论用 Claude Opus 4.5(带扩展思考),实时信息用 Grok。

“我简直不敢相信你用路由模式和非思考模式。”

Lex:用 Grok-4 Heavy 做硬核调试,其他模型解决不了的问题它能解。界面上更偏好 Gemini,因为它的长上下文能力——在“大海捞针”场景下(即从海量文本中找到特定信息),Gemini 对他来说表现最好。

Sebastian 总结了一个普遍规律:“你一直用到它出问题,出了问题就换一个模型。”

就像浏览器一样——Safari、Firefox、Chrome 功能差不多,你不会同时打开三个浏览器对比同一个网页。你用习惯的那个,直到它出问题。

Lex 提了一个尖锐的问题:我们三个都没提中国模型。这说明什么?

Sebastian 认为这是平台和模型的脱节——中国开源模型更多是作为权重被下载使用,而不是通过产品界面。Nathan 补充:美国用户愿意为边际智能付费,而中国公司还没找到让美国用户付费的方式。

“简单说,美国模型目前更好,我们就用它们。”

【3】最佳编程 AI

Lex 说他一半用 Cursor,一半用 Claude Code,因为它们是“根本不同的体验”。

Sebastian 用 Cursor(VS Code 插件版),因为方便——一个聊天窗口直接访问代码库。他还没准备好让 AI 完全接管项目。“也许我是个控制狂,但我还是喜欢看到正在发生什么。”

Nathan 做了一个有趣的对比测试建议:同时打开 Claude Code、Cursor、VS Code,选同样的模型,问同样的问题。结果会很不一样。

“Claude Code 在这个领域好太多了,真的很惊人。”

Lex 解释他用 Claude Code 的原因:“培养用英语编程的能力”。这是一种完全不同的思维方式——不是盯着代码细节和差异对比,而是用自然语言在宏观层面指导,像做设计。

Sebastian 提了一个值得思考的问题:如果大语言模型随时可用,你还会去“挣扎”吗?

资深开发者用 AI 更多,可能是因为他们更会用、更会审查。但新人如果从不经历挣扎,怎么成为专家?“我是通过自己尝试来学习的。如果大语言模型一直在那儿,你还会愿意挣扎吗?”

【4】开源与闭源大模型

Lex 让两人即兴列举能想到的开源模型。

Nathan 开始报名:DeepSeek、Kimi、MiniMax、01.AI、月之暗面……

Sebastian 接力:Mistral、Gemma、GPT-o1(OpenAI 的开源模型)、英伟达的 Nemotron-3、通义千问……

“你能至少说出 10 个中国的,至少 10 个西方的。”

Nathan 提到一个关键区别:中国开源模型通常是大型 MoE(混合专家模型,即模型内部有多个“专家”子网络,每次只激活一部分)架构,峰值性能更高;美国偏好的 Gemma、Nemotron 等往往是较小的稠密模型(所有参数每次都参与计算)。但这正在改变——Mistral Large 2 就是一个巨型混合专家模型。

Sebastian 指出中国模型许可证的优势:几乎无限制。而 Llama、Gemma 有用户数量上限等条款。对于想基于开源模型做商业化的公司,中国模型限制更少。

为什么要开源?Nathan 列了几个原因:

1. 获取用户——很多人不会付费订阅 API,但愿意在本地跑模型
2. 获取分发——OpenAI 都 GPU 不够用,开源可以用用户的 GPU
3. 数据隐私——有些数据你不想发到云端
4. 定制需求——企业可以在开源模型上做专属微调

Sebastian 补充:开源还解决了教育和人才问题。如果只有闭源模型,你只能加入公司后才能学习,但怎么识别和招聘人才呢?“开源是培养下一代研究者的唯一方式。”

【5】Transformer 架构:从 2019 年到现在的演进

Lex 问了一个基础但重要的问题:从 GPT-2 到今天,架构到底变了多少?

Sebastian 的回答可能让很多人意外:

“从根本上说,架构还是一样的。”

具体变化可以列出来:

* 混合专家模型(MoE):不是 DeepSeek 发明的,但他们用得很好
* 多头潜在注意力(MLA):DeepSeek 的注意力机制变体
* 分组查询注意力(GQA):比 MLA 更早出现,很多模型在用
* 滑动窗口注意力:OLMo-2 在用
* RMSNorm 替代 LayerNorm(两种归一化方法)
* 非线性激活函数的微调

“你可以从一个模型转换到另一个,只需要添加这些改动。”

Sebastian 在他的书里就是这么做的:从 GPT-2 出发,增量修改得到 OLMo、Llama 3 等。

Nathan 补充了另一个变化维度:系统层面。FP8、FP4 训练(低精度浮点数),更高效的 GPU 通信,更快的每秒每 GPU 生成词元数。这些不改变架构,但让实验速度大幅提升。

“你现在训练一个 GPT-MoE 8x7B 的实际耗时可能比当年训 GPT-2 还快。”

Sebastian 提到一些替代架构正在冒头:文本扩散模型、Mamba(状态空间模型)。但它们有各自的权衡取舍。如果追求最先进的效果,自回归 Transformer 仍然是首选。

【6】规模定律:死了还是活着?

这是个敏感话题。“预训练规模定律已死”这句话在圈内流传很广。

Nathan 先给了技术定义:规模定律是计算量/数据量(x 轴)和预测准确率(y 轴)之间的幂律关系。这个关系仍然存在。问题是:用户能从中得到什么?

现在有三种扩展方式:

1. 预训练扩展:模型大小 + 数据量
2. 强化学习扩展:RL 训练时间
3. 推理时扩展:生成更多词元

“我还是比较乐观的。这三种方式都还在起作用,只是容易摘的果子已经被摘得差不多了。”

Nathan 解释预训练变贵的原因:训练一个万亿参数模型意味着你要向用户提供一个巨型模型,服务成本极高。DeepSeek 预训练成本约 500 万美元听起来不多,但服务百万用户的推理成本是“真正数十亿美元”的开销。

Sebastian 的观点更平衡:“我不会说预训练扩展已死,只是现在有其他更有吸引力的扩展方式。”

在理想世界里,你会同时做预训练、中训、后训、推理时扩展——如果有无限计算资源的话。现实是你要选择把钱花在哪里。

GPT-4.5 就是一个例子:预训练一个更大的模型,性价比不如用 o1 这样的推理时扩展。

Nathan 预测 2026 年会出现 2000 美元/月的订阅服务——是现在 200 美元的 10 倍。新的 Blackwell 计算集群正在上线,实验室会有更多训练计算资源。

【7】训练流程详解:预训练、中训、后训练

Sebastian 给了清晰的定义:

预训练:经典的下一个词预测,在海量互联网数据、书籍、论文上训练。现在不只是扔原始数据进去,还包括合成数据——把维基百科文章改写成问答格式,用光学字符识别提取 PDF 文本,清理和重组数据。

“更高质量的数据让模型训练更快。如果语法和标点都正确,它直接学到正确的方式,而不是先学错再纠正。”

中训:类似预训练但更聚焦,比如专门针对长上下文文档。为什么单独拎出来?因为长上下文文档本来就少,而且神经网络有“灾难性遗忘”问题——学新东西会忘旧东西。中训是一种选择性的、高质量的阶段。

后训练:所有微调阶段,包括 SFT(监督微调,用人类标注的问答对训练)、DPO(直接偏好优化)、RLVR(可验证奖励强化学习,用可验证的正确答案作为奖励)、RLHF(人类反馈强化学习)。这里不是教模型新知识,而是“解锁”它已有的能力。

Nathan 补充了数据规模的概念:小型模型的预训练数据集是 5-10 万亿词元,通义千问据说到 50 万亿,闭源实验室传言达到 100 万亿。但这只是原始数据,实际训练的是筛选后的一小部分。

关于合成数据,两人都强调:这不等于“AI 编造的数据”。它包括光学字符识别提取、格式转换、数据清洗——很多是技术处理而非凭空生成。

【8】后训练前沿:RLVR 与 RLHF

Nathan 说 2025 年后训练最大的突破是 RLVR(可验证奖励强化学习)。

机制很简单:模型尝试解题,验证答案正确性,正确性作为强化学习的奖励信号。这让模型能学习工具使用、代码执行、自我纠错等行为。

“推理时扩展和 RLVR 训练之间有一种完美的耦合。”

Sebastian 做了一个实验:用 RLVR 对通义千问 2.5 基础模型训练仅 50 步,MATH-500 准确率从 15% 跳到 50%。

“你不可能在 50 步里真的学会数学。知识早就在预训练阶段存在了,RLVR 只是解锁它。”

关于 DeepSeek R1 论文里著名的“顿悟时刻”——模型自发说“啊,我做错了,让我再试一次”——Nathan 持怀疑态度:

“这些'顿悟时刻'可能是假的。”

他的理由是:预训练数据中肯定包含类似内容——数学讲座转录、教学视频字幕,里面充满了老师的自我纠错。RLVR 不是发明新行为,是放大已有模式。

Sebastian 补充:这就是为什么蒸馏能奏效。如果模型真的在 RLVR 过程中学到全新的数学能力,蒸馏应该不可能。

RLVR 与 RLHF 的关键区别

Nathan:RLHF 有天然上限。偏好是主观的、可平均的,训练到一定程度后继续投入计算没有意义。历史上的 RLHF 规模定律论文标题是《奖励模型过拟合的规模定律》——讲的是过拟合问题,不是持续提升。

但 RLVR 不同。OpenAI 的 o1 论文展示了真正的规模定律:计算量对数增长,性能线性增长。DeepSeek 复现了这个结果。

“你可以让最好的 RLVR 训练多跑 10 倍,获得更好的性能。但 RLHF 做不到。”

这将定义这个领域。

【未完】完整版:http://t.cn/AXqgcG6y

发布于 美国