AI现状深度解读

【栏目对话和访谈】Sebastian 和 Nathan 在 Lex Fridman 播客深度解读 AI 现状：中美竞争、模型对比、规模定律、AGI 时间线
完整版本（太长放不下）：http://t.cn/AXqgcG6y

Sebastian Raschka 和 Nathan Lambert 坐在 Lex Fridman 的播客里，聊了整整 4 个小时。

Sebastian 是《从零构建大语言模型》一书的作者，那本书教你从零开始写一个 GPT-2。Nathan 是艾伦人工智能研究所（AI2）的后训练负责人，写了业界最权威的 RLHF（基于人类反馈的强化学习）书籍。两个人都是真正在一线做研究、训练模型的人。

这期播客覆盖了 AI 领域几乎所有热门话题：中美竞争、模型对比、规模定律（Scaling Laws，即模型性能随计算量增长的规律）、训练流程、AGI（通用人工智能）时间线、程序员是否会被取代……信息密度极高。以下是按访谈顺序整理的核心内容。

【1】中美 AI 竞争：谁在赢？

Lex 开场就抛了一个问题：国际层面，中国还是美国在赢？

Sebastian 的回答很谨慎：“赢”这个词太宽泛了。他认为 DeepSeek 赢得了开源社区的心，因为他们真的把模型放出来了。但长期来看，不会有任何一家公司独占某种技术——研究者频繁跳槽，想法会流动。真正的差异化因素是预算和硬件。

Nathan 补充了一个有趣的观察：Claude 4.5 的热度是有机增长的，而几个月前 Gemini 3 发布时营销攻势很猛，但热度很快就被 Claude 盖过了。

“差异化程度在降低，”他说。各家的想法空间很流通，但 Anthropic 在代码上的长期押注正在收到回报。

关于中国公司，Nathan 指出 DeepSeek 可能正在“失去王冠”——智谱 AI、MiniMax、月之暗面等公司在 2025 年下半年表现更加亮眼。DeepSeek 启动了中国的开源运动，就像 ChatGPT 启动了美国的聊天机器人运动一样。

“中国现在有大量科技公司在发布非常强的前沿开源模型。”

Lex 追问：中国公司会持续开源多久？

Nathan 的判断是：至少几年。中国公司很清楚，美国顶级科技公司出于安全顾虑不会购买中国 API 服务。开源模型是一种“曲线进入”美国市场的方式——用户在本地运行，既获得分发又不触发安全红线。

“他们对此非常现实，而且正在奏效。”

【2】ChatGPT、Claude、Gemini、Grok：谁更强？

Lex 问：2025 年哪个模型赢了？2026 年谁会赢？

Nathan 坦言很难押注 Gemini 超过 ChatGPT，因为 OpenAI 是市场领先者，在科技行业这有巨大优势。但 Gemini 的势头确实在上升。他的判断是：Gemini 会继续蚕食 ChatGPT 的份额，Anthropic 会在软件和企业端持续成功。

关于个人使用习惯，三人的偏好完全不同：

Sebastian：大多数时候用 ChatGPT 快速查东西，用非思考的快速模式。偶尔用 Pro 模式做深度检查，比如让它彻底审查一篇文章的引用、格式、逻辑。

Nathan：从不碰 GPT-5 的非思考模式。信息检索一律用 GPT-5.2 思考模式或 Pro，快速问题用 Gemini，代码和哲学讨论用 Claude Opus 4.5（带扩展思考），实时信息用 Grok。

“我简直不敢相信你用路由模式和非思考模式。”

Lex：用 Grok-4 Heavy 做硬核调试，其他模型解决不了的问题它能解。界面上更偏好 Gemini，因为它的长上下文能力——在“大海捞针”场景下（即从海量文本中找到特定信息），Gemini 对他来说表现最好。

Sebastian 总结了一个普遍规律：“你一直用到它出问题，出了问题就换一个模型。”

就像浏览器一样——Safari、Firefox、Chrome 功能差不多，你不会同时打开三个浏览器对比同一个网页。你用习惯的那个，直到它出问题。

Lex 提了一个尖锐的问题：我们三个都没提中国模型。这说明什么？

Sebastian 认为这是平台和模型的脱节——中国开源模型更多是作为权重被下载使用，而不是通过产品界面。Nathan 补充：美国用户愿意为边际智能付费，而中国公司还没找到让美国用户付费的方式。

“简单说，美国模型目前更好，我们就用它们。”

【3】最佳编程 AI

Lex 说他一半用 Cursor，一半用 Claude Code，因为它们是“根本不同的体验”。

Sebastian 用 Cursor（VS Code 插件版），因为方便——一个聊天窗口直接访问代码库。他还没准备好让 AI 完全接管项目。“也许我是个控制狂，但我还是喜欢看到正在发生什么。”

Nathan 做了一个有趣的对比测试建议：同时打开 Claude Code、Cursor、VS Code，选同样的模型，问同样的问题。结果会很不一样。

“Claude Code 在这个领域好太多了，真的很惊人。”

Lex 解释他用 Claude Code 的原因：“培养用英语编程的能力”。这是一种完全不同的思维方式——不是盯着代码细节和差异对比，而是用自然语言在宏观层面指导，像做设计。

Sebastian 提了一个值得思考的问题：如果大语言模型随时可用，你还会去“挣扎”吗？

资深开发者用 AI 更多，可能是因为他们更会用、更会审查。但新人如果从不经历挣扎，怎么成为专家？“我是通过自己尝试来学习的。如果大语言模型一直在那儿，你还会愿意挣扎吗？”

【4】开源与闭源大模型

Lex 让两人即兴列举能想到的开源模型。

Nathan 开始报名：DeepSeek、Kimi、MiniMax、01.AI、月之暗面……

Sebastian 接力：Mistral、Gemma、GPT-o1（OpenAI 的开源模型）、英伟达的 Nemotron-3、通义千问……

“你能至少说出 10 个中国的，至少 10 个西方的。”

Nathan 提到一个关键区别：中国开源模型通常是大型 MoE（混合专家模型，即模型内部有多个“专家”子网络，每次只激活一部分）架构，峰值性能更高；美国偏好的 Gemma、Nemotron 等往往是较小的稠密模型（所有参数每次都参与计算）。但这正在改变——Mistral Large 2 就是一个巨型混合专家模型。

Sebastian 指出中国模型许可证的优势：几乎无限制。而 Llama、Gemma 有用户数量上限等条款。对于想基于开源模型做商业化的公司，中国模型限制更少。

为什么要开源？Nathan 列了几个原因：

1. 获取用户——很多人不会付费订阅 API，但愿意在本地跑模型
2. 获取分发——OpenAI 都 GPU 不够用，开源可以用用户的 GPU
3. 数据隐私——有些数据你不想发到云端
4. 定制需求——企业可以在开源模型上做专属微调

Sebastian 补充：开源还解决了教育和人才问题。如果只有闭源模型，你只能加入公司后才能学习，但怎么识别和招聘人才呢？“开源是培养下一代研究者的唯一方式。”

【5】Transformer 架构：从 2019 年到现在的演进

Lex 问了一个基础但重要的问题：从 GPT-2 到今天，架构到底变了多少？

Sebastian 的回答可能让很多人意外：

“从根本上说，架构还是一样的。”

具体变化可以列出来：

* 混合专家模型（MoE）：不是 DeepSeek 发明的，但他们用得很好
* 多头潜在注意力（MLA）：DeepSeek 的注意力机制变体
* 分组查询注意力（GQA）：比 MLA 更早出现，很多模型在用
* 滑动窗口注意力：OLMo-2 在用
* RMSNorm 替代 LayerNorm（两种归一化方法）
* 非线性激活函数的微调

“你可以从一个模型转换到另一个，只需要添加这些改动。”

Sebastian 在他的书里就是这么做的：从 GPT-2 出发，增量修改得到 OLMo、Llama 3 等。

Nathan 补充了另一个变化维度：系统层面。FP8、FP4 训练（低精度浮点数），更高效的 GPU 通信，更快的每秒每 GPU 生成词元数。这些不改变架构，但让实验速度大幅提升。

“你现在训练一个 GPT-MoE 8x7B 的实际耗时可能比当年训 GPT-2 还快。”

Sebastian 提到一些替代架构正在冒头：文本扩散模型、Mamba（状态空间模型）。但它们有各自的权衡取舍。如果追求最先进的效果，自回归 Transformer 仍然是首选。

【6】规模定律：死了还是活着？

这是个敏感话题。“预训练规模定律已死”这句话在圈内流传很广。

Nathan 先给了技术定义：规模定律是计算量/数据量（x 轴）和预测准确率（y 轴）之间的幂律关系。这个关系仍然存在。问题是：用户能从中得到什么？

现在有三种扩展方式：

1. 预训练扩展：模型大小 + 数据量
2. 强化学习扩展：RL 训练时间
3. 推理时扩展：生成更多词元

“我还是比较乐观的。这三种方式都还在起作用，只是容易摘的果子已经被摘得差不多了。”

Nathan 解释预训练变贵的原因：训练一个万亿参数模型意味着你要向用户提供一个巨型模型，服务成本极高。DeepSeek 预训练成本约 500 万美元听起来不多，但服务百万用户的推理成本是“真正数十亿美元”的开销。

Sebastian 的观点更平衡：“我不会说预训练扩展已死，只是现在有其他更有吸引力的扩展方式。”

在理想世界里，你会同时做预训练、中训、后训、推理时扩展——如果有无限计算资源的话。现实是你要选择把钱花在哪里。

GPT-4.5 就是一个例子：预训练一个更大的模型，性价比不如用 o1 这样的推理时扩展。

Nathan 预测 2026 年会出现 2000 美元/月的订阅服务——是现在 200 美元的 10 倍。新的 Blackwell 计算集群正在上线，实验室会有更多训练计算资源。

【7】训练流程详解：预训练、中训、后训练

Sebastian 给了清晰的定义：

预训练：经典的下一个词预测，在海量互联网数据、书籍、论文上训练。现在不只是扔原始数据进去，还包括合成数据——把维基百科文章改写成问答格式，用光学字符识别提取 PDF 文本，清理和重组数据。

“更高质量的数据让模型训练更快。如果语法和标点都正确，它直接学到正确的方式，而不是先学错再纠正。”

中训：类似预训练但更聚焦，比如专门针对长上下文文档。为什么单独拎出来？因为长上下文文档本来就少，而且神经网络有“灾难性遗忘”问题——学新东西会忘旧东西。中训是一种选择性的、高质量的阶段。

后训练：所有微调阶段，包括 SFT（监督微调，用人类标注的问答对训练）、DPO（直接偏好优化）、RLVR（可验证奖励强化学习，用可验证的正确答案作为奖励）、RLHF（人类反馈强化学习）。这里不是教模型新知识，而是“解锁”它已有的能力。

Nathan 补充了数据规模的概念：小型模型的预训练数据集是 5-10 万亿词元，通义千问据说到 50 万亿，闭源实验室传言达到 100 万亿。但这只是原始数据，实际训练的是筛选后的一小部分。

关于合成数据，两人都强调：这不等于“AI 编造的数据”。它包括光学字符识别提取、格式转换、数据清洗——很多是技术处理而非凭空生成。

【8】后训练前沿：RLVR 与 RLHF

Nathan 说 2025 年后训练最大的突破是 RLVR（可验证奖励强化学习）。

机制很简单：模型尝试解题，验证答案正确性，正确性作为强化学习的奖励信号。这让模型能学习工具使用、代码执行、自我纠错等行为。

“推理时扩展和 RLVR 训练之间有一种完美的耦合。”

Sebastian 做了一个实验：用 RLVR 对通义千问 2.5 基础模型训练仅 50 步，MATH-500 准确率从 15% 跳到 50%。

“你不可能在 50 步里真的学会数学。知识早就在预训练阶段存在了，RLVR 只是解锁它。”

关于 DeepSeek R1 论文里著名的“顿悟时刻”——模型自发说“啊，我做错了，让我再试一次”——Nathan 持怀疑态度：

“这些'顿悟时刻'可能是假的。”

他的理由是：预训练数据中肯定包含类似内容——数学讲座转录、教学视频字幕，里面充满了老师的自我纠错。RLVR 不是发明新行为，是放大已有模式。

Sebastian 补充：这就是为什么蒸馏能奏效。如果模型真的在 RLVR 过程中学到全新的数学能力，蒸馏应该不可能。

RLVR 与 RLHF 的关键区别

Nathan：RLHF 有天然上限。偏好是主观的、可平均的，训练到一定程度后继续投入计算没有意义。历史上的 RLHF 规模定律论文标题是《奖励模型过拟合的规模定律》——讲的是过拟合问题，不是持续提升。

但 RLVR 不同。OpenAI 的 o1 论文展示了真正的规模定律：计算量对数增长，性能线性增长。DeepSeek 复现了这个结果。

“你可以让最好的 RLVR 训练多跑 10 倍，获得更好的性能。但 RLHF 做不到。”

这将定义这个领域。

【未完】完整版：http://t.cn/AXqgcG6y

发布于美国