昨晚看完GPT-5的直播，感觉都在预期之中，没拉垮但也不惊艳，到了这个阶段模型增强的边际收益越来越低了，倒是PolyMarket的盘口先崩为敬（图1），大家认为截止到8月底的SOTA还是会由Google拿下。目前GPT-5只灰度了20%的付费账号，我这边还没有选项出现，所以也没法测什么，只能等着吧，根据OpenAI的

昨晚看完GPT-5的直播，感觉都在预期之中，没拉垮但也不惊艳，到了这个阶段模型增强的边际收益越来越低了，倒是PolyMarket的盘口先崩为敬（图1），大家认为截止到8月底的SOTA还是会由Google拿下。

目前GPT-5只灰度了20%的付费账号，我这边还没有选项出现，所以也没法测什么，只能等着吧，根据OpenAI的规划，GPT-5会是一个全量模型，包括免费用户最终都能直接使用。

主要的直播总结如下：

- PhD级别的智能水平，能够通过藤校的考试，在写作、编码、医疗和学术等高知领域表现很好，而且继承了GPT-4.1的「人味」优点，人机交流的真实感拉满，TTS也升级了；

- 第一个统一模型，结束o系列的分支回归GPT命名，采用混合思考模式，会根据问题难度自动换挡，很有意思的是，Qwen3的7月更新刚好放弃了混合思考，觉得这个架构拖累性能；

- 但型号还是复杂，模型分为GPT-5、Thinking、Pro三个版本，而在API的供应上又分为GPT-5、GPT-、nano三个档位，20美金月费的Plus会员每3小时最多可与GPT-5对话80轮次，200美金月费的Pro会员则不限量，还能独占使用Pro版本；

- API的定价比较「合理」，尤其是nano档位可以说是非常便宜了，感觉是在走薄利多销的路线，来自外部的竞争压力还是太大了；

- 安全对齐方面不再无脑拒绝用户的风险提问，而是开始懂得分辨有害和无害的动机，并就事论事的给予回应，在无法完成目标时的欺骗率也大幅降低，幻觉比GPT-4o少了45%、比o3少了80%；

- 大模型竞技场Arena显示GPT-5拿到了迄今为止最高的分数（图2），在几乎所有分类里都取得了第一名，当然，在我看来基准测试越来越没有意义了，太容易刷题了；

- 另一家主流基准测试平台Artificial Anlys则发现GPT-5的不同型号之间差别很大，满血版能排第一，低配版则在中下游（图3）；

- 目测GPT-5的长上下文遵循能力是在为Agent做足准备，不会轻易丢失工作流程或是「撞墙」，工程化的进步很明显。

发布于湖北