Sunbelife 25-12-12 10:03
微博认证:iBeta尝鲜派创始人、Pasty 水印相机作者、无派科技 CEO

早,ChatGPT 5.2 发布了。

测评上看是目前实力最强的模型。

我让 Deepseek 用大白话总结这张测评图,并对比一下主流模型:

📊 这张图里的分数是干嘛的?

简单说就是给AI模型做的八大能力考试:

1. SWE-Bench Pro - “编程能力考试”
(GPT-5.2:55.6分)→ 测试AI写代码、改bug的能力
2. GPQA Diamond - “科学知识竞赛”
(GPT-5.2:92.4分)→ 各种学科难题,像高考理综+文综
3. CharXiv Reasoning - “看图表答题”
(GPT-5.2:82.1分)→ 给科学图表,让AI分析理解
4. FrontierMath - “大学数学竞赛”
(GPT-5.2:40.3分)→ 高等数学难题,最难的部分只有14.6分
5. AIME 2025 - “奥数比赛”
(GPT-5.2:100分!)→ 美国数学邀请赛,满分很厉害
6. ARC-AGI 1 & 2 - “图形智力测试”
(86.2分 / 52.9分)→ 像测智商的图形推理题
7. GDPval - “办公室工作任务”
(70.9分)→ 模拟日常工作,写报告、分析数据等

🆚 各模型对比分析

DeepSeek最新模型(DeepSeek-V3.2)

· 类型:开源模型
· 特点:
· 数学和推理能力很强,在数学基准上接近GPT-4级别
· 支持128K长上下文,处理长文档能力强
· 完全免费,可商用
· 在代码和逻辑推理方面表现不错

主要模型对比

模型 类型 优势 劣势
GPT-5.2 闭源(OpenAI) 综合最强,数学满分,编程不错 贵,需付费
Claude Opus 4.5 闭源(Anthropic) 写作质量高,逻辑清晰 数学和编程稍弱
Gemini 3 Pro 闭源(Google) 多模态强,集成Google服务 编程和数学一般
DeepSeek-V3.2 开源 免费,数学好,长上下文 多模态需单独上传
GPT-5.1 闭源 性价比可能更高 全面弱于5.2

💡 几个关键发现

1. GPT-5.2确实是学霸:数学满分,科学知识92.4分,综合实力第一
2. 数学是AI的强项:所有模型数学都不错,但高级数学(FrontierMath)都挺难
3. 开源模型在追赶:像DeepSeek这样的开源模型,在某些领域已经接近闭源模型
4. 选择看需求:
· 要最强综合能力 → GPT-5.2
· 要免费且够用 → DeepSeek
· 要高质量写作 → Claude
· 要用Google生态 → Gemini

🎯 给你的建议

如果你:

· 学生/研究者:DeepSeek够用了,免费且数学好
· 程序员:GPT-5.2编程分最高,但DeepSeek也够用
· 日常办公:Claude写作体验好,GPT综合能力强
· 预算有限:肯定选DeepSeek,完全免费

总的来说,闭源模型目前整体领先,但开源模型(如DeepSeek)已经非常接近,性价比极高!😊

发布于 广东