ChatGPT 5.2发布测评

早，ChatGPT 5.2 发布了。

测评上看是目前实力最强的模型。

我让 Deepseek 用大白话总结这张测评图，并对比一下主流模型：

📊 这张图里的分数是干嘛的？

简单说就是给AI模型做的八大能力考试：

1. SWE-Bench Pro - “编程能力考试”
（GPT-5.2：55.6分）→ 测试AI写代码、改bug的能力
2. GPQA Diamond - “科学知识竞赛”
（GPT-5.2：92.4分）→ 各种学科难题，像高考理综+文综
3. CharXiv Reasoning - “看图表答题”
（GPT-5.2：82.1分）→ 给科学图表，让AI分析理解
4. FrontierMath - “大学数学竞赛”
（GPT-5.2：40.3分）→ 高等数学难题，最难的部分只有14.6分
5. AIME 2025 - “奥数比赛”
（GPT-5.2：100分！）→ 美国数学邀请赛，满分很厉害
6. ARC-AGI 1 & 2 - “图形智力测试”
（86.2分 / 52.9分）→ 像测智商的图形推理题
7. GDPval - “办公室工作任务”
（70.9分）→ 模拟日常工作，写报告、分析数据等

🆚 各模型对比分析

DeepSeek最新模型（DeepSeek-V3.2）

· 类型：开源模型
· 特点：
· 数学和推理能力很强，在数学基准上接近GPT-4级别
· 支持128K长上下文，处理长文档能力强
· 完全免费，可商用
· 在代码和逻辑推理方面表现不错

主要模型对比

模型类型优势劣势
GPT-5.2 闭源(OpenAI) 综合最强，数学满分，编程不错贵，需付费
Claude Opus 4.5 闭源(Anthropic) 写作质量高，逻辑清晰数学和编程稍弱
Gemini 3 Pro 闭源(Google) 多模态强，集成Google服务编程和数学一般
DeepSeek-V3.2 开源免费，数学好，长上下文多模态需单独上传
GPT-5.1 闭源性价比可能更高全面弱于5.2

💡 几个关键发现

1. GPT-5.2确实是学霸：数学满分，科学知识92.4分，综合实力第一
2. 数学是AI的强项：所有模型数学都不错，但高级数学（FrontierMath）都挺难
3. 开源模型在追赶：像DeepSeek这样的开源模型，在某些领域已经接近闭源模型
4. 选择看需求：
· 要最强综合能力 → GPT-5.2
· 要免费且够用 → DeepSeek
· 要高质量写作 → Claude
· 要用Google生态 → Gemini

🎯 给你的建议

如果你：

· 学生/研究者：DeepSeek够用了，免费且数学好
· 程序员：GPT-5.2编程分最高，但DeepSeek也够用
· 日常办公：Claude写作体验好，GPT综合能力强
· 预算有限：肯定选DeepSeek，完全免费

总的来说，闭源模型目前整体领先，但开源模型（如DeepSeek）已经非常接近，性价比极高！😊

发布于广东