AI胜负手在工程非模型

OpenAI 总裁有个反常识的判断：AI 比赛真正的胜负手是工程，不是模型。

我在扫各个 AI 圈大佬的分享，发现 OpenAI 总裁 Greg Brockman 这一年的几次访谈，他反复在讲一个跟主流叙事反着来的判断：AI 公司之间真正比的不是「谁的模型最强」，是「谁的工程能力最强」。

顺便说，他最近在 OpenAI 和马斯克的官司中，表现真的一言难尽。哈哈，太直接了。

接着说，听起来反直觉，所有人都盯着 GPT-5、Claude 4.6、Gemini 2.0 的能力得分，以为模型本身就是胜负手。但 Brockman 说，模型只是冰山露在水面的那一角，真正决定能不能赢的，是水下那大块的工程基础设施。

Greg Brockman 是 OpenAI 的联合创始人之一，2015年和 Sam Altman 等人一起创办公司，现任 OpenAI 总裁。OpenAI 之前他在 Stripe 做了四年 CTO（2010到2014），那段时间 Stripe 从一家早期支付创业公司长成了处理几十亿美元交易的稳定系统。这两段经历加起来，让他对「工程怎么把研究变成产品」这件事有特别清楚的判断。

为什么是工程，不是模型？Brockman 给的逻辑大概是这样：

模型那一层，差距在快速缩小。你今年训出一个比对手强一截的模型，三到六个月后对手大概率追上来。模型层「领先一代」的窗口越来越短。

但工程那一层，差距能拉得很大、很久。一家 AI 公司同时要解决几件事：把几百万用户的请求路由到合适的 GPU 上；模型崩溃时秒级切换备份；新版本上线不影响在线用户；bug 修复比对手快两周。每一件都是真活儿，砸钱砸不出来，得靠几年积累的工程团队和系统。

就跟车企的核心从来不是某款车的最大马力，是十年下来谁的供应链、产线、售后体系最扎实。

具体到 AI 公司的「工程能力」，Brockman 反复讲过的有三块。

第一块是 GPU 调度。AI 公司现在最贵最稀缺的就是显卡。把几万张 GPU 用满不闲置、出故障秒级切到备用、训练任务和推理任务合理共享资源，这套调度系统做得好不好直接决定一家公司在同样预算下能出多少东西。Brockman 自己是这套底层架构的核心搭建人之一。

第二块是系统稳定性。ChatGPT 现在每天几亿用户在用，任何一次大规模 down 机都会上社交媒体头条。让系统在用户量翻几倍的情况下还稳着跑，是个看不见的真功夫。Brockman 公开讲过他在 Stripe 学到的最重要一件事：处理几十亿美元的支付系统不能崩，崩一次客户就跑了。这个直觉他直接搬到了 OpenAI。

第三块是迭代速度。OpenAI 第一版 API 是 Brockman 在圣诞假期一个周末手搓出来的。他在公司内部推一种叫「ship-then-iterate」（先发再迭代）的文化——东西先放出来给几百万人用，再根据真实反馈调，比关起门做半年再发效率高得多。这套文化在 ChatGPT 上线速度上看得最清楚。

Brockman 这个判断不一定全对。当模型层有重大突破（比如某一代模型直接做到现在五倍的能力）时，模型差距会重新拉开，工程的相对重要性可能短期变小。

但常态下，几家头部 AI 公司的模型差距不会大到压倒一切。这种时候，工程稳定度就是普通用户能感受到的、最实在的差异。

其实，在这方面，中国的团队反而有优势。比如 DeepSeek。

加油！

发布于北京