OpenAI发布GPT-5.4大模型

OpenAI 发布了最新的大模型GPT-5.4，科技迭代实在是太快了。 #OpenAI正式发布GPT5.4#

最近由于快要回国了，所以退订了 Claude 的套餐，准备暂时先换成其他的模型。这个尝试的过程中，发现大模型的能力对于 AI Agent 来说太重要了。有时候一个很简单的任务，在不同模型之下输出的结果天差地别。

这次 GPT-5.4 的功能对于使用者来说真的很亮眼啊！首先抛出结论：
Thinking = 全能打工人；Pro = 高智商考试机器

从图片的细节来看，GPT-5.4 的 Thinking 和 Pro 模型具有以下亮点！

⭐️ GPT-5.4 Thinking 最强的地方：会“动手做事”

· OSWorld-Verified（75.0%）
真实操作电脑能力最强。
不只是会回答问题，而是真的更接近“看屏幕 → 点鼠标 → 打字 → 开软件 → 完成任务”。

· WebArena-Verified（67.3%）
真实网页操作领先。
说明它不只是会搜信息，而是更像真的能在网站里完成流程。

· GDPval（83.0%）
知识工作任务最强。
也就是分析、总结、判断、写作这类脑力活，整体胜率最高。

· SWE-Bench Pro（57.7%）
软件工程表现第一。
真正偏工程场景的修 bug、改项目，不只是“会写几行代码”。

· Toolathlon（54.6%）
工具使用能力第一。
这很关键，说明它更像一个会调工具、会拆步骤、会把任务推进下去的 agent。

⭐️ GPT-5.4 Pro 更像“高配学霸版”

它在这些项目更强：
• BrowseComp（89.3%）：代理式浏览最强
• GPQA Diamond（94.4%）：专家级科学推理最强
• FrontierMath（50.0% / 38.0%）：高数最强

总得来说，GPT-5.4 Thinking 在任务工作中能高度的拟人化，从机械的执行转变到能像人类一样真实操作电脑。包括看屏幕、移动鼠标、点击、输入、打开软件，并完成真实桌面任务。[拜托] 不得不说，真的是越来越强了。

发布于新西兰