#模型时代# Cursor官方播客刚采访了Thinking Machines联创、前OpenAI核心研究员John Schulman，“很多时候不是技术不成熟，而是不知道这条路能走通”Cursor播客在2025年12月18日发布了一期与John Schulman的对话。Schulman是PPO算法的发明者、OpenAI联合创始成员，2024年离开OpenAI后创立了Thinking

#模型时代# Cursor官方播客刚采访了Thinking Machines联创、前OpenAI核心研究员John Schulman，“很多时候不是技术不成熟，而是不知道这条路能走通”

Cursor播客在2025年12月18日发布了一期与John Schulman的对话。Schulman是PPO算法的发明者、OpenAI联合创始成员，2024年离开OpenAI后创立了Thinking Machines。这期播客覆盖了OpenAI早期历史、研究管理方法论、RL研究的未来，以及他创业后推出的首个产品Tinker。

为什么值得关注？Schulman是少数经历了深度学习从"学术游戏"到"产业主战场"全过程的核心玩家，他的观察同时具备历史纵深和一线实操视角。

一、如果时间倒流，ChatGPT可以提前四年做出来

主持人抛出了一个有趣的问题：如果OpenAI的创始团队带着今天的知识穿越回2015-2016年，多快能做出ChatGPT？

Schulman的回答是：2018-2019年，几个人，几台GPU，就能达到GPT-3.5水平。

他给出的理由很实在。NanoGPT是Andrej Karpathy一个人写的，跑在一台机器上，半年写完。当时硬件是V100，不是H100，但组几台GPU box还是可行的。关键差异在于post-training（后训练）的知识——"如果你愿意做大量fine-tuning，并且用聪明的方式构建fine-tuning数据集，就可以让小得多的模型表现相当好。"

他甚至大胆预测：未来可能出现"demo scene版ChatGPT"——一个文件完成全部训练，自动爬取网页，一天跑完。

这个思想实验揭示了一个重要事实：很多时候不是技术不成熟，而是我们不知道"原来这条路能走通"。后见之明的价值在于让人敢于在没有充分验证时就下注。

二、早期OpenAI的真实画像：学术味浓，项目失败是常态

现在的OpenAI是全球估值最高的AI公司之一。但Schulman描述的早期OpenAI更像一个学术实验室：1-3人组成小组，按自己的research taste做项目，最后变成论文或博客。

他分享了一个失败案例——Universe项目。

这个项目的想法是：收集大量不同的RL环境（视频游戏、网页导航任务），joint train出一个通用RL agent。理论上，如果在足够多的环境上联合训练，模型就能泛化到新环境。

结果呢？系统很笨重，不适合RL实验，模型从零训练也无法泛化。Schulman后来带队把这个想法缩小到模拟器视频游戏，才跑出了有意义的结果。

"有趣的是，这个想法deeply correct，只是提前了十年。"

另一个例子是机器人项目。对公司来说是dead end，但"训练了很多人做这种大型工程+研究的工作"，长期看是有价值的。

这里的教训是：失败项目的价值不在于直接产出，而在于组织能力的积累。

三、研究管理的两种原型

Schulman带过团队，他观察到两种有效的管理模式。

第一种：深度介入型。管理者自己写代码，读所有下属的代码，给出非常具体的技术反馈。适合目标明确的执行型项目，或者团队成员经验不足的情况。

第二种：放手型。管理者主要做sounding board，给职业建议而不是技术建议，保持团队happy和motivated，让大家自己探索。适合探索性研究，且团队成员已经是资深IC的情况。

他特别指出：这是一个非平稳问题。七八年前有效的方法，现在可能不再适用，因为整个领域在快速变化。

值得注意的是，他没有推崇某一种模式，而是强调匹配——研究类型和团队成熟度决定了管理风格。

四、为什么大公司不抄Bell Labs？

主持人问：OpenAI早期有没有参考Bell Labs、Xerox PARC这些传奇研究机构？

Schulman的回答出乎意料："几乎没有。"

实际影响来源是前东家——Google Brain、DeepMind，以及研究生院。OpenAI的MTS（Member of Technical Staff）头衔确实借自Bell Labs，但实际操作方式更多是从Google那里学来的。

他们偶尔会讨论曼哈顿计划这类历史案例，但没有系统性地分析过往成功的研究机构并提取best practice。

这很有趣。也许说明了两件事：第一，经验的传递主要靠人员流动而非文献研究；第二，AI研究和传统工业研究的差异可能大到历史类比失效。

五、Thinking Machines vs 早期OpenAI：和平时期与战时

Schulman把早期OpenAI比作和平时期——没有清晰的技术路线图，大家各自探索，没有一个所有人都在冲刺的目标。DeepMind当时也存在，但整个领域还没有形成"谁scaling得快谁赢"的共识。

而现在的新公司，包括他自己的Thinking Machines，更像战时——需要catch up当前SOTA，有明确的追赶对象。

"我非常aware这一点，刻意确保我们不只是在追赶模式，也在建立探索性研究的muscle。" 他说。原因是：如果一开始不建立探索性研究的文化，后面很难补。

这个洞察对创业者很有价值。在资源紧张时，全力追赶leader似乎是理性选择，但可能会锁死未来的创新能力。

六、Value Function会回归，持续学习还没解

两个技术方向的判断：

1、Value Function为什么不流行了？

在当前LLM的RLHF和verifiable reward任务上，value function提供的variance reduction效果不明显。"我说不清为什么，但在其他任务上value function确实能显著降低variance。" 他预测value function会在某个时点回归。

2、持续学习怎么解？

Schulman把学习分成几类：motor learning（运动学习）、episodic memory（情景记忆）、procedural memory（程序性记忆）。

他的判断是：in-context learning在短horizon上很难被击败，但weight updates在长horizon上会胜出。LoRA这类参数微调方法会叠加在context management之上，对需要大容量吸收知识的任务特别有效。

"如果我们持续scaling模型，无论写下什么metric都会持续提升。但可能有新方法能给你更好的scaling law——要么是固定的effective compute倍数提升，要么是不同的斜率。"

七、研究者的日常与AI工具的使用方式

Schulman透露了自己的工作节奏。

思考阶段：经常去咖啡店，带着笔记本坐下来记录想法，隔绝干扰。"咖啡店有一种buzz of activity，我喜欢在这种环境里思考。"

执行阶段：要么自己写代码，要么花大量时间读别人写的文档、看他们的图表和代码。作为研究顾问，他现在更多时间在review他人的工作。

在AI工具使用上，他非常heavy user：
• 编程： Cursor、Claude Code
• 文献搜索： "如果我有想法，就直接问GPT-5 Pro做一堆literature search"
• 思路迭代：把模糊的想法写两段话，让模型flesh out
• 写作反馈：聊天模型是他的first round of feedback

他特别强调了一点：在研究场景下，让AI大量生成代码可能不是最优解。 "最好的研究者真的理解代码的每一行，一直到nuts and bolts。" 对于软件工程来说，定义spec让模型写实现可能很高效，但对于研究，深度理解代码本身是核心能力的一部分。

这和他2020年写的"如何做有效研究"博客一脉相承。他说那些建议——goal-directed research、keeping research notebook、building taste by reading papers——仍然有效。唯一的更新是：研究笔记本现在更有价值了，因为可以直接粘贴给LLM获取反馈。

八、Tinker：让下一个AI创业公司不用重建基础设施

Schulman的新公司Thinking Machines推出了首个产品Tinker。

它是什么？一个低级fine-tuning API，提供一小组训练和采样原语，几乎可以表达所有你想要的post-training算法，同时不用操心GPU和分布式系统问题。

类比来说，OpenAI和Anthropic的sampling API让你不用自己spin up GPU box就能做推理。Tinker想做的是让training也能这样——写几个Python脚本就跑起来，不用装一堆东西。

目标用户：当前是对ML有深入了解、想用低级原语的人。未来会逐步变得更user-friendly，让只懂业务问题的人也能用。

愿景： "下一个Thinking Machines创业公司可以直接在Tinker上构建，不用自己搞基础设施。"

预计2026年会看到他们自己模型的发布，Tinker也会持续扩展——支持更多模型、多模态输入输出、更大规模的job。

核心归纳

Q1: 如果带着现在的知识回到2015年，多快能做出ChatGPT？
2018-2019年，几个人，几台GPU，就能达到GPT-3.5水平。关键不是硬件或算法，而是post-training的知识——巧妙构建fine-tuning数据集可以让小模型表现出色。这说明很多突破被延迟不是因为技术不成熟，而是不知道"这条路能走通"。

Q2: 研究管理应该选择哪种风格？
深度介入型适合目标明确+团队经验不足的情况；放手型适合探索性研究+资深成员。没有普适答案，关键是匹配。而且这是非平稳问题，七八年前有效的方法现在可能失效。

Q3: AI工具在研究中应该怎么用？
文献搜索、思路迭代、写作反馈都可以大量用AI。但对于代码，研究场景和工程场景不同——顶级研究者需要理解每一行代码，让AI大量生成代码可能损害这种深度理解。研究笔记本配合LLM反馈是当前最有效的组合。

发布于韩国