昨晚看完GPT-5的直播,感觉都在预期之中,没拉垮但也不惊艳,到了这个阶段模型增强的边际收益越来越低了,倒是PolyMarket的盘口先崩为敬(图1),大家认为截止到8月底的SOTA还是会由Google拿下。
目前GPT-5只灰度了20%的付费账号,我这边还没有选项出现,所以也没法测什么,只能等着吧,根据OpenAI的规划,GPT-5会是一个全量模型,包括免费用户最终都能直接使用。
主要的直播总结如下:
- PhD级别的智能水平,能够通过藤校的考试,在写作、编码、医疗和学术等高知领域表现很好,而且继承了GPT-4.1的「人味」优点,人机交流的真实感拉满,TTS也升级了;
- 第一个统一模型,结束o系列的分支回归GPT命名,采用混合思考模式,会根据问题难度自动换挡,很有意思的是,Qwen3的7月更新刚好放弃了混合思考,觉得这个架构拖累性能;
- 但型号还是复杂,模型分为GPT-5、Thinking、Pro三个版本,而在API的供应上又分为GPT-5、GPT-、nano三个档位,20美金月费的Plus会员每3小时最多可与GPT-5对话80轮次,200美金月费的Pro会员则不限量,还能独占使用Pro版本;
- API的定价比较「合理」,尤其是nano档位可以说是非常便宜了,感觉是在走薄利多销的路线,来自外部的竞争压力还是太大了;
- 安全对齐方面不再无脑拒绝用户的风险提问,而是开始懂得分辨有害和无害的动机,并就事论事的给予回应,在无法完成目标时的欺骗率也大幅降低,幻觉比GPT-4o少了45%、比o3少了80%;
- 大模型竞技场Arena显示GPT-5拿到了迄今为止最高的分数(图2),在几乎所有分类里都取得了第一名,当然,在我看来基准测试越来越没有意义了,太容易刷题了;
- 另一家主流基准测试平台Artificial Anlys则发现GPT-5的不同型号之间差别很大,满血版能排第一,低配版则在中下游(图3);
- 目测GPT-5的长上下文遵循能力是在为Agent做足准备,不会轻易丢失工作流程或是「撞墙」,工程化的进步很明显。
