高飞 25-12-18 22:28
微博认证:至顶科技创始人 AI博主

#模型时代# Cursor官方播客刚采访了Thinking Machines联创、前OpenAI核心研究员John Schulman,“很多时候不是技术不成熟,而是不知道这条路能走通”

Cursor播客在2025年12月18日发布了一期与John Schulman的对话。Schulman是PPO算法的发明者、OpenAI联合创始成员,2024年离开OpenAI后创立了Thinking Machines。这期播客覆盖了OpenAI早期历史、研究管理方法论、RL研究的未来,以及他创业后推出的首个产品Tinker。

为什么值得关注?Schulman是少数经历了深度学习从"学术游戏"到"产业主战场"全过程的核心玩家,他的观察同时具备历史纵深和一线实操视角。

一、如果时间倒流,ChatGPT可以提前四年做出来

主持人抛出了一个有趣的问题:如果OpenAI的创始团队带着今天的知识穿越回2015-2016年,多快能做出ChatGPT?

Schulman的回答是:2018-2019年,几个人,几台GPU,就能达到GPT-3.5水平。

他给出的理由很实在。NanoGPT是Andrej Karpathy一个人写的,跑在一台机器上,半年写完。当时硬件是V100,不是H100,但组几台GPU box还是可行的。关键差异在于post-training(后训练)的知识——"如果你愿意做大量fine-tuning,并且用聪明的方式构建fine-tuning数据集,就可以让小得多的模型表现相当好。"

他甚至大胆预测:未来可能出现"demo scene版ChatGPT"——一个文件完成全部训练,自动爬取网页,一天跑完。

这个思想实验揭示了一个重要事实:很多时候不是技术不成熟,而是我们不知道"原来这条路能走通"。 后见之明的价值在于让人敢于在没有充分验证时就下注。

二、早期OpenAI的真实画像:学术味浓,项目失败是常态

现在的OpenAI是全球估值最高的AI公司之一。但Schulman描述的早期OpenAI更像一个学术实验室:1-3人组成小组,按自己的research taste做项目,最后变成论文或博客。

他分享了一个失败案例——Universe项目。

这个项目的想法是:收集大量不同的RL环境(视频游戏、网页导航任务),joint train出一个通用RL agent。理论上,如果在足够多的环境上联合训练,模型就能泛化到新环境。

结果呢?系统很笨重,不适合RL实验,模型从零训练也无法泛化。Schulman后来带队把这个想法缩小到模拟器视频游戏,才跑出了有意义的结果。

"有趣的是,这个想法deeply correct,只是提前了十年。"

另一个例子是机器人项目。对公司来说是dead end,但"训练了很多人做这种大型工程+研究的工作",长期看是有价值的。

这里的教训是:失败项目的价值不在于直接产出,而在于组织能力的积累。

三、研究管理的两种原型

Schulman带过团队,他观察到两种有效的管理模式。

第一种:深度介入型。 管理者自己写代码,读所有下属的代码,给出非常具体的技术反馈。适合目标明确的执行型项目,或者团队成员经验不足的情况。

第二种:放手型。 管理者主要做sounding board,给职业建议而不是技术建议,保持团队happy和motivated,让大家自己探索。适合探索性研究,且团队成员已经是资深IC的情况。

他特别指出:这是一个非平稳问题。七八年前有效的方法,现在可能不再适用,因为整个领域在快速变化。

值得注意的是,他没有推崇某一种模式,而是强调匹配——研究类型和团队成熟度决定了管理风格。

四、为什么大公司不抄Bell Labs?

主持人问:OpenAI早期有没有参考Bell Labs、Xerox PARC这些传奇研究机构?

Schulman的回答出乎意料:"几乎没有。"

实际影响来源是前东家——Google Brain、DeepMind,以及研究生院。OpenAI的MTS(Member of Technical Staff)头衔确实借自Bell Labs,但实际操作方式更多是从Google那里学来的。

他们偶尔会讨论曼哈顿计划这类历史案例,但没有系统性地分析过往成功的研究机构并提取best practice。

这很有趣。也许说明了两件事:第一,经验的传递主要靠人员流动而非文献研究;第二,AI研究和传统工业研究的差异可能大到历史类比失效。

五、Thinking Machines vs 早期OpenAI:和平时期与战时

Schulman把早期OpenAI比作和平时期——没有清晰的技术路线图,大家各自探索,没有一个所有人都在冲刺的目标。DeepMind当时也存在,但整个领域还没有形成"谁scaling得快谁赢"的共识。

而现在的新公司,包括他自己的Thinking Machines,更像战时——需要catch up当前SOTA,有明确的追赶对象。

"我非常aware这一点,刻意确保我们不只是在追赶模式,也在建立探索性研究的muscle。" 他说。原因是:如果一开始不建立探索性研究的文化,后面很难补。

这个洞察对创业者很有价值。在资源紧张时,全力追赶leader似乎是理性选择,但可能会锁死未来的创新能力。

六、Value Function会回归,持续学习还没解

两个技术方向的判断:

1、Value Function为什么不流行了?

在当前LLM的RLHF和verifiable reward任务上,value function提供的variance reduction效果不明显。"我说不清为什么,但在其他任务上value function确实能显著降低variance。" 他预测value function会在某个时点回归。

2、持续学习怎么解?

Schulman把学习分成几类:motor learning(运动学习)、episodic memory(情景记忆)、procedural memory(程序性记忆)。

他的判断是:in-context learning在短horizon上很难被击败,但weight updates在长horizon上会胜出。LoRA这类参数微调方法会叠加在context management之上,对需要大容量吸收知识的任务特别有效。

"如果我们持续scaling模型,无论写下什么metric都会持续提升。但可能有新方法能给你更好的scaling law——要么是固定的effective compute倍数提升,要么是不同的斜率。"

七、研究者的日常与AI工具的使用方式

Schulman透露了自己的工作节奏。

思考阶段: 经常去咖啡店,带着笔记本坐下来记录想法,隔绝干扰。"咖啡店有一种buzz of activity,我喜欢在这种环境里思考。"

执行阶段: 要么自己写代码,要么花大量时间读别人写的文档、看他们的图表和代码。作为研究顾问,他现在更多时间在review他人的工作。

在AI工具使用上,他非常heavy user:
• 编程: Cursor、Claude Code
• 文献搜索: "如果我有想法,就直接问GPT-5 Pro做一堆literature search"
• 思路迭代: 把模糊的想法写两段话,让模型flesh out
• 写作反馈: 聊天模型是他的first round of feedback

他特别强调了一点:在研究场景下,让AI大量生成代码可能不是最优解。 "最好的研究者真的理解代码的每一行,一直到nuts and bolts。" 对于软件工程来说,定义spec让模型写实现可能很高效,但对于研究,深度理解代码本身是核心能力的一部分。

这和他2020年写的"如何做有效研究"博客一脉相承。他说那些建议——goal-directed research、keeping research notebook、building taste by reading papers——仍然有效。唯一的更新是:研究笔记本现在更有价值了,因为可以直接粘贴给LLM获取反馈。

八、Tinker:让下一个AI创业公司不用重建基础设施

Schulman的新公司Thinking Machines推出了首个产品Tinker。

它是什么?一个低级fine-tuning API,提供一小组训练和采样原语,几乎可以表达所有你想要的post-training算法,同时不用操心GPU和分布式系统问题。

类比来说,OpenAI和Anthropic的sampling API让你不用自己spin up GPU box就能做推理。Tinker想做的是让training也能这样——写几个Python脚本就跑起来,不用装一堆东西。

目标用户: 当前是对ML有深入了解、想用低级原语的人。未来会逐步变得更user-friendly,让只懂业务问题的人也能用。

愿景: "下一个Thinking Machines创业公司可以直接在Tinker上构建,不用自己搞基础设施。"

预计2026年会看到他们自己模型的发布,Tinker也会持续扩展——支持更多模型、多模态输入输出、更大规模的job。

核心归纳

Q1: 如果带着现在的知识回到2015年,多快能做出ChatGPT?
2018-2019年,几个人,几台GPU,就能达到GPT-3.5水平。关键不是硬件或算法,而是post-training的知识——巧妙构建fine-tuning数据集可以让小模型表现出色。这说明很多突破被延迟不是因为技术不成熟,而是不知道"这条路能走通"。

Q2: 研究管理应该选择哪种风格?
深度介入型适合目标明确+团队经验不足的情况;放手型适合探索性研究+资深成员。没有普适答案,关键是匹配。而且这是非平稳问题,七八年前有效的方法现在可能失效。

Q3: AI工具在研究中应该怎么用?
文献搜索、思路迭代、写作反馈都可以大量用AI。但对于代码,研究场景和工程场景不同——顶级研究者需要理解每一行代码,让AI大量生成代码可能损害这种深度理解。研究笔记本配合LLM反馈是当前最有效的组合。

发布于 韩国