GPT-5.4发布AI执行能力升级

GPT-5.4 深度拆解：从“对话框”到“控制器”，AI Agent 的奇点时刻

如果说过去三年，大模型的核心突破在于“理解”和“生成”；那么 OpenAI 刚刚发布的 GPT-5.4，则用一个极其粗暴的数字宣告了下一个时代的到来——“执行”。

它不再只是一个被动回答问题的黑盒，而是真正长出了“手和眼”。

一、跨越人类基准线：被低估的 75.0%
这次发布会中，最具里程碑意义的数据不是上下文长度，也不是多模态能力，而是 OSWorld（电脑操控成功率）跑出了 75.0% 的成绩。

要知道，在这个模拟真实办公环境下跨应用操作的测试中，人类的平均水平是 72.4%，而上一代 GPT-5.2 仅有 47.3%。

这意味着什么？
从第一性原理来看，AI 与数字世界的交互界面正在发生根本性转移。过去，我们需要通过 API 或特定的代码环境来调用 AI；现在，GPT-5.4 原生具备了 Computer-Use 能力。它可以直接“看”你的屏幕截图，“操控”你的鼠标和键盘，在浏览器、电子表格和企业应用之间自由穿梭。

“AI 没法处理我实际工作流”的最后一块遮羞布，正在被撕下。

二、 Thinking 与 Pro：算力的精准分层
OpenAI 这次在产品矩阵上做出了极其清晰的切割，本质上是对不同计算复杂度任务的定价分离：

GPT-5.4 Thinking（标准版）：核心在于推理过程可视化。你不再需要盲等结果，它会实时展露思考大纲，允许你在生成过程中随时打断和纠偏。这极大地降低了长链路任务的试错成本。

GPT-5.4 Pro（高性能版）：这是真正的“重型武器”，专为复杂知识工作打造。定价高达 200 美元/月，但换来的是在 FrontierMath（高难数学）和 GDPval（专业知识）上的碾压级表现。在投行电子表格建模的内部测试中，它的得分直接从上一代的 68.4% 跃升至 87.3%。

三、开发者视角的隐藏红利
对构建系统的开发者而言，GPT-5.4 解决了两个核心痛点：

100 万 Token 窗口正式转正：摘掉 Beta 标签，意味着你可以稳定地将一整条代码库、几十份研报或长周期的数据丢进上下文，让模型进行全流程验证。

Tool Search（按需工具检索）：这是一个极其优雅的架构升级。在构建大型智能体时，过去每次调用都需要携带全量工具定义，极大地浪费 Token。现在改为“按需检索”后，在 250 个任务的实测中，总 Token 用量锐减了 47%。

四、算一笔账：涨价背后的效率博弈
GPT-5.4 的 API 定价确实上涨了（Thinking 版输入从 $1.75 涨至 $2.50/M Token）。但这并不是简单的“成本上升”。

如果你用计算效率的视角来看：GPT-5.4 解决同等复杂问题所需的 Token 数量显著变少了。叠加前文提到的 Tool Search 机制，对于多数实际的复杂应用场景，完成单次任务的综合成本反而是下降的。

五、终局思考：“模型选型”时代的终结
过去这一年，行业里充斥着一种权衡：需要写代码用 Codex，需要深度思考切 Thinking，需要长文本换另一个模型。

GPT-5.4 的出现，本质上是 OpenAI 对这种碎片化生态的收编。它将编码、推理、原生电脑操控、百万上下文整合进了单一的入口。

这印证了一个趋势：未来的护城河不在于你用了哪个专精模型，而在于你如何将一个全能型的自主智能体（Agent），无缝嵌入到你现有的系统和工作流中。

属于“对话框”的时代已经结束，属于“执行器”的时代，今天正式开启。

感谢阅读本期内容。如果你对 AI 发展趋势和深度的商业/技术拆解感兴趣，欢迎订阅本人。

发布于日本