默庵·超级个体 26-04-24 06:38
微博认证:微博新知博主 科技博主 头条文章作者 微博原创视频博主

凌晨 OpenAI 放了个大的,GPT-5.5 正式发布,是 GPT-5 系列迄今为止最大的一次更新。

一句话总结这次升级的核心:用更少的 token,干更难的活。 在第三方评测机构 Artificial Analysis 的 Coding Agent 排行榜上,GPT-5.5 拿到了最高智能评分,而成本只有同级别竞品的一半。模型虽然更大更强了,但实际延迟和上一代 GPT-5.4 基本持平,因为 OpenAI 让 Codex 自己分析了好几周的生产流量数据,写了一套自定义的分区算法,把 token 生成速度提升了 20% 以上。模型帮忙优化了自己运行的基础设施,这件事本身就挺科幻的。

编程能力方面,Terminal-Bench 2.0 上 GPT-5.5 拿到 82.7%,比 GPT-5.4 的 75.1% 高了一大截,也远超 Claude Opus 4.7 的 69.4%。内部长周期编码任务(中位人类完成时间 20 小时的那种)得分 73.1%,比上代提升了将近 5 个百分点。上下文窗口直接拉到了 400K。

编程之外的知识工作同样有明显进步。44 个职业知识工作测试中胜出或平手率达到 84.9%,真实电脑环境操作得分 78.7%,复杂客服工作流更是飙到了 98.0%。OpenAI 自己公司超过 85% 的员工每周都在用 Codex,公关团队拿它做演讲邀请的风险评估,财务团队用它审了将近 25000 份税表共 7 万多页,比去年提前两周搞定。

科学研究方面也有亮点。GPT-5.5 的内部版本配合自定义工具链,发现了关于 Ramsey 数的一个新证明,还在 Lean 里完成了形式化验证。Ramsey 数是组合数学里出了名的硬骨头,这个成果含金量不低。

当然也有短板。SWE-Bench Pro 上 Claude Opus 4.7 报了 64.3%,GPT-5.5 是 58.6%,虽然 Anthropic 承认部分问题存在记忆化。MCP Atlas 上 Claude Opus 4.7 和 Gemini 3.1 Pro 也都高于 GPT-5.5。长上下文 256K 以上的场景,Claude Opus 4.7 在部分指标上仍然有优势。

定价方面,API 价格大幅上涨,但 OpenAI 的说法是,GPT-5.5 的 token 效率更高,实际跑下来大多数用户消耗的 token 反而更少。另外还同步推出了一个生物安全漏洞赏金计划,第一个成功的通用越狱奖金 25000 美元,申请窗口到 6 月 22 日截止。

总的来看,GPT-5.5 在编程和知识工作上的提升很扎实,效率和成本的平衡也做得不错,但在某些细分 benchmark 上和 Claude、Gemini 还是互有胜负。AI 模型的竞争已经进入了"每个场景都要逐项比"的精细化阶段,没有谁能在所有维度上碾压对手了。

#科技先锋官##How I AI# #ChatGPT5.5是最强AI模型吗#

发布于 山东