OpenAI 发布了最新的大模型GPT-5.4,科技迭代实在是太快了。 #OpenAI正式发布GPT5.4#
最近由于快要回国了,所以退订了 Claude 的套餐,准备暂时先换成其他的模型。这个尝试的过程中,发现大模型的能力对于 AI Agent 来说太重要了。有时候一个很简单的任务,在不同模型之下输出的结果天差地别。
这次 GPT-5.4 的功能对于使用者来说真的很亮眼啊!首先抛出结论:
Thinking = 全能打工人;Pro = 高智商考试机器
从图片的细节来看,GPT-5.4 的 Thinking 和 Pro 模型具有以下亮点!
⭐️ GPT-5.4 Thinking 最强的地方:会“动手做事”
· OSWorld-Verified(75.0%)
真实操作电脑能力最强。
不只是会回答问题,而是真的更接近“看屏幕 → 点鼠标 → 打字 → 开软件 → 完成任务”。
· WebArena-Verified(67.3%)
真实网页操作领先。
说明它不只是会搜信息,而是更像真的能在网站里完成流程。
· GDPval(83.0%)
知识工作任务最强。
也就是分析、总结、判断、写作这类脑力活,整体胜率最高。
· SWE-Bench Pro(57.7%)
软件工程表现第一。
真正偏工程场景的修 bug、改项目,不只是“会写几行代码”。
· Toolathlon(54.6%)
工具使用能力第一。
这很关键,说明它更像一个会调工具、会拆步骤、会把任务推进下去的 agent。
⭐️ GPT-5.4 Pro 更像“高配学霸版”
它在这些项目更强:
• BrowseComp(89.3%):代理式浏览最强
• GPQA Diamond(94.4%):专家级科学推理最强
• FrontierMath(50.0% / 38.0%):高数最强
总得来说,GPT-5.4 Thinking 在任务工作中能高度的拟人化,从机械的执行转变到能像人类一样真实操作电脑。包括看屏幕、移动鼠标、点击、输入、打开软件,并完成真实桌面任务。[拜托] 不得不说,真的是越来越强了。
