宝玉xp 26-02-13 02:28
微博认证:前微软Asp.Net最有价值专家 2025微博年度新知博主 科技博主

“我们真的变成巫师了”:OpenAI API 负责人谈 AI 如何重塑软件工程
完整图文版:http://t.cn/AXtAW4MY

Sherwin Wu 是 OpenAI API 和开发者平台的工程负责人。他最近在 Lenny's Podcast 上做了一次深度对话,从 OpenAI 内部的 AI 编码实践谈到工程管理哲学,从“一人十亿美元公司”的连锁效应谈到 AI 部署为什么经常失败。以下是这次访谈的完整整理。

【1】“95% 的工程师在用 Codex,100% 的 PR 由 Codex 审查”

Lenny 开门见山:你还写代码吗?你团队有多少代码是 AI 写的?

Sherwin 说,他自己作为管理者,所有代码现在都是 Codex 写的。对管理者来说,用 AI 工具写代码反而比手写更容易了。

但团队层面的数据更能说明问题:

> 95% 的工程师在日常使用 Codex。100% 的 PR 都由 Codex 审查,任何合入生产环境的代码,Codex 都会过目并提出改进建议。

而且这个趋势还在加速。Sherwin 分享了一个内部跟踪的数据:重度使用 Codex 的工程师,比用得少的工程师多提交了 70% 的 PR,而且差距在持续扩大。他认为这是一种“复利效应”,用得越多的人越能掌握工具的最佳实践,效率增益不断累积。

这是 AI 编程能力的起点,不是终点。

【2】巫师、咒语和魔法师的学徒

Lenny 问:未来一两年,软件工程师这份工作到底会变成什么样?

Sherwin 先描述了当下的变化:IC(个人贡献者)工程师正在变成 tech lead,管理着成群结队的 agent。他团队里很多工程师同时拉着 10-20 个 Codex 线程,不是同时运行,但并行推进。他们的工作已经从“亲手写代码”转变为“检查 agent 在做什么,给它反馈,引导它的方向”。

然后他引用了 MIT 经典教材 SICP("巫师书")的比喻——这本 1980 年代的书把编程比作巫术:程序员是巫师,编程语言是咒语。他认为这个比喻在 AI 时代变得格外贴切:

> 现在的咒语真的变成了自然语言。你告诉 Codex 或 Cursor 你想做什么,然后它就出去替你做了。这感觉真的像在施法,我们真的变成巫师了。

但他紧接着补充了另一个比喻,迪士尼《幻想曲》里的“魔法师的学徒”。米奇找到了巫师的帽子,开始疯狂施法让扫帚替他干活,结果水漫金山。

> 这是 vibe coding(只描述想法、不看代码的编程方式)的终极版本。米奇给扫帚下了一个任务,然后自己去睡觉了。

Sherwin 说,当他看到工程师们同时开着 20 个 Codex 线程时,确实需要相当的经验和判断力来确保模型不跑偏。你绝对不能像米奇那样完全放手不管。但对于真正熟练的工程师来说,这种杠杆效应是空前的,一个人能做的事情比以前多了太多。

【3】移除逃生舱:100% Codex 代码库实验

Lenny 提到一个越来越多人在讨论的问题:当你的 agent 不工作的时候,那种焦虑感。你派出一堆 Codex agent,然后发现有一个卡住了,时间在浪费...

Sherwin 说他们内部也天天遇到这种情况。然后他分享了一个内部实验:

> 有一个团队正在 OpenAI 内部做一个实验,他们维护一个 100% 由 Codex 编写的代码库。不是说“AI 写了初稿然后人来改”,而是完完全全由 Codex 生成、全盘接受。

这个团队遇到了完全可以预料的问题:想让 agent 实现某个功能,但 agent 就是做不对。

通常在这种情况下,你会有一个“逃生舱”,撸起袖子自己写,或者切换到 tab 补全和 Cursor 这样的辅助工具。但这个实验团队刻意不给自己留这条退路。

Sherwin 说他们计划发布一篇关于这个实验的博客文章,因为从中产生了不少发现。其中一个关键发现是:

> 当 coding agent 不按你想的做时,问题往往不在模型的能力,而在于上下文。你要么描述得不够清楚,要么代码库里缺乏足够的信息来引导 agent。

解决方案?把你脑子里的“部落知识”编码到代码库中,通过代码注释、代码结构、Markdown 文件、skills 文件等各种形式,让模型能获取到做任务所需的背景信息。

移除逃生舱让他们不得不直面一个核心问题:如果我们真的要全面依赖 agent,到底需要解决什么?这个极端实验成了一个很好的“压力测试”。

【4】AI 代码审查:从 10 分钟缩短到 2-3 分钟

PR 产量暴增自然带来代码审查的压力。Sherwin 分享了他们的解法。

他先用一个个人故事铺垫:他在第一份工作 Quora 时负责信息流的代码,每天早上登录就看到 20-30 个等待审查的 PR,拖延一下就变成 50 个。代码审查一直是他最讨厌的环节。

现在 Codex 审查所有 PR。他提到 5.2 版本的模型在代码审查上表现极好,尤其是当你给它一些引导方向的时候。

> 代码审查从原来的 10-15 分钟变成了 2-3 分钟,因为大部分建议已经提前准备好了。对于小的 PR,有时候甚至不需要人来审查,Codex 就是一双相当聪明的“第二双眼睛”。

Lenny 追问:Codex 写代码,Codex 审查自己的代码,这不是“自审”吗?

Sherwin 承认确实有循环性的问题,回到了魔法师学徒的比喻,你不能让扫帚完全失控。大多数工程师仍然会看 PR,只是注意力从 100% 降到了 30% 左右,这就够用了。他们也会用模型的不同内部变体来获取不同视角。

在代码审查之外,CI(持续集成)流程、lint 错误修复、部署前的各种琐碎工作也已经大量通过 Codex 自动化了。目标是把工程师在“写完代码到上线”之间的摩擦压缩到最小。

【5】管理者的角色变化:外科手术团队

Lenny 把话题转向管理者:工作怎么变了?

第一个趋势是 AI 放大了个人能力差距。Codex 尤其放大了高绩效员工的产出,他们本来就能力强,再加上 AI 杠杆,差距急剧拉大。

这也是他一直坚持的管理哲学:

> 我一直把超过 50% 的时间花在排名前 10% 的员工身上,确保他们不被阻塞,确保他们开心,确保他们觉得自己有生产力并且被倾听。

Marc Andreessen 最近在 Lenny 的播客里说过一句类似的话:“AI 让好的人变得更好,让优秀的人变得卓越。”Sherwin 完全认同。

然后他展开了另一个比喻,来自 Frederick Brooks 的《人月神话》。这本 1970 年代的书预测软件工程会变成像外科手术一样:手术室里有一个人主刀,其他所有人都在支持这个人。

> 我不认为软件工程完全变成了这样,它更协作。但我把这个比喻用在了自己的管理方式上:让我团队里的人觉得自己是主刀医生,而我作为管理者就是那个“外科手术团队”,替他们提前准备好手术刀,替他们看到拐角后面的障碍。

他举了一个具体例子:当工程师们以飞快的速度产出 PR 时,真正的瓶颈往往是组织层面和流程层面的阻塞。如果管理者能提前看到这些阻塞并清除掉,效果就像主刀医生还没开口说“手术刀”,护士就已经递过来了。

他预测管理者未来能管理更大的团队,超过目前普遍认为的 6-8 人上限。

【6】一人十亿美元公司:你没“定价”进去的连锁效应

Lenny 问:人们对 AI 的影响,有什么还没充分意识到的?

Sherwin 从“一人十亿美元公司”这个概念切入。他认为这是 AI 浪潮中最引人注目的想法之一,可能最早由 Sam Altman 提出。但他更感兴趣的是大家还没想到的二阶和三阶效应。

二阶效应:如果一个人能创建十亿美元的公司,那创建一般的公司就更容易了。他预测会出现一波巨大的创业潮,尤其是垂直化的 AI 软件公司。为了支撑一个“一人十亿美元公司”的运转,可能需要上百个小型公司提供定制化的配套软件。

> 可能会有一个一人十亿美元的公司,但也会有一百个一亿美元的公司,上万个一千万美元的公司。对个人来说,一千万美元的生意已经足够让你一生无忧了。

他认为这可能是 B2B SaaS 的黄金时代,因为软件构建的成本正在坍塌。

三阶效应:如果大量公司是“微型公司”,VC 生态可能会改变。这些一千万到五千万美元的公司对创始人来说很好,但不适合风险投资追求的 100 倍回报。市场可能会分化成少数大平台加上海量小公司的格局。

Lenny 补充了他自己想到的“第四阶效应”:当选择如此之多时,分发能力变得越来越重要,有受众和平台的人会变得更有价值。

对于“一个人怎么处理客服”的质疑,Sherwin 说:你不需要亲自用 AI 解决客服问题。会有别的小型创业公司专门为你这类业务打造极度定制化的客服工具,比如“播客和 newsletter 专用客服软件”。因为构建软件的成本大幅下降,“自建还是外包”的平衡点会大幅偏向外包。

【7】为什么这么多 AI 部署在亏钱

他首先强调了一个被反复低估的事实:

> 我们在硅谷生活在泡沫里。X 是泡沫。软件工程是泡沫。世界上大多数人不是软件工程师,不是 AI 狂热者,不关注每个模型发布。

当他跟这些企业的实际员工交流时发现,他们对 AI 的使用极其基础,问最简单的问题,远远没有推到极限。

他认为 AI 部署成功需要两个条件同时满足:

1. 自上而下的买入:高管层的支持、预算、工具采购
2. 自下而上的传播:真正做事的员工对技术感到兴奋,愿意学习和分享

反模式是纯粹的自上而下:高管下令“我们要成为 AI 优先的公司”,甚至在绩效评估中加入 AI 使用指标,但员工不理解技术,周围也没人在用,结果就是一大群困惑的人不知道该做什么。

他的建议:

> 找到或专门组建一个“老虎队”,一个内部的全职团队,去探索 AI 能力在具体工作流中的极限,然后做知识分享,在内部点燃兴奋感。

Lenny 问这个老虎队应该由什么人组成。Sherwin 说:

> 往往不是软件工程师,因为很多公司根本没有软件工程师。通常是“技术相邻”的人,比如运营团队里那个不会写代码但是 Excel 奇才、对新技术特别有热情的人。这类人我见到过的反应最强烈。

【8】“模型会在早餐前吞掉你的脚手架”

Sherwin 谈到了他在 AI 领域的一个观察。

他引用了 FinTool 创始人 Nicholas 在 X 上的一句话:

> “模型会在早餐前吞掉你的脚手架。”

回看过去三年:2022 年 ChatGPT 刚发布时,模型还比较“生”,于是整个开发者生态建了大量的脚手架,agent 框架、向量数据库、各种试图驯服模型的工具。当时向量数据库是最热门的话题。

然后模型迅速进步,大量脚手架变得多余了。向量数据库不再是唯一的上下文管理方式,你可以直接把文件放在文件系统里,用 skills 文件和 agents.md 来引导模型。

Sherwin 甚至预测,当前流行的 skills 文件和基于文件的上下文管理方式也可能被未来的模型吞掉,因为模型可能学会自己管理这些。

他承认 OpenAI API 团队自己也在这个问题上犯过错:

> 我们也走了一些不该走的弯路。但模型变得更好了,我们都在日复一日地学习“苦涩的教训”(The Bitter Lesson)。

他给创业者的建议:

> 确保你是在为模型将去的方向构建,而非它们今天的能力。

他见过的最成功的初创公司,构建的产品可能在当下只有 80% 的模型能力支撑,看起来“差一点”。但当新模型出来,o3、5.1、5.2,突然就“点击到位”了,产品变得惊艳。

> 你可能需要等一等,但模型进步如此之快,通常不需要等太久。

【9】未来 12-18 个月:多小时任务和被低估的音频

Lenny 问:API 和模型接下来会往哪里发展?

Sherwin 提了两个方向。

第一个是任务持续时间的延长。他引用了 Meter Benchmark 的数据,这个基准测试追踪模型能在多长的软件工程任务上保持连贯。目前前沿模型能在多小时任务上达到约 50% 的成功率,在接近 1 小时的任务上达到约 80%。

他认为 12-18 个月内,模型可能能够连贯地执行 6 小时甚至一整天的任务。围绕它构建的产品形态会完全不同,你不再是分钟级地交互,而是“派出一个 agent,让它自己工作半天”。

第二个是音频和语音 AI。这个领域他认为被严重低估了:

> 所有人都在谈编码,都是文本。但我们现在就在用音频对话。全球大量的商业活动是通过对话完成的。大量的服务和运营是通过语音进行的。

他预测在原生多模态模型方面会有显著进步,尤其是在企业和商业场景中。

【10】"不要把这个时代当作理所当然"

访谈最后聊到了对当下的感受。

他 2014 年入行,觉得头几年挺好,但接下来有五六年科技行业没什么特别令人兴奋的事情。然后过去三年成了他职业生涯中最疯狂、最激动人心的时期。

> 接下来两到三年还会继续这样。我鼓励大家不要把这当作理所当然。总有一天这波浪潮会趋于平缓,变得更渐进。但在那之前,我们有机会探索很多很酷的东西,发明新事物,改变世界。

对于“怎么才能不错过”,他的建议很实际:不一定要是工程师,不一定要创业,但要动手用这些工具。安装 Codex CLI 玩一玩。把 ChatGPT 连接到你的 Notion、Slack、GitHub 上看看它能做什么。理解它现在的能力边界,这样当模型进步时,你能敏锐地捕捉到新的可能。

对于“信息过载”的焦虑:
> 大量信息其实是噪音。你不需要掌握 110% 的资讯。老老实实用好一两个工具、从小处开始,就已经足够了。

发布于 美国