先说结论:截至6月底的LMArena(原LMSYS Chatbot Arena)数据,国内模型中 Qwen 3.7 Max、ERNIE 5.1、GLM-5.1 是最接近 GPT-5.5 的第一梯队,Elo 差距已压缩到 13–30 分之间,进入"同一档位、微弱差距"区间。 你刚问的 LongCat-2.0 因 6 月底才发布且权重尚未开放,目前还未进入 Arena 盲测池。
---
国内模型 vs GPT-5.5 的 Arena 位次(2026 年 6 月数据)
模型 厂商 Arena Elo 文本排名 与 GPT-5.5 标准版(≈1488) 差距 与 GPT-5.5-high(≈1506) 差距 核心长板
Qwen 3.7 Max 阿里 1475 #13 −13 −31 Agent 编码、1M 上下文、性价比
ERNIE 5.1 百度 1473 — −15 −33 中文深度、多模态
GLM-5.1 智谱 1471 — −17 −35 编码/SWE-bench、开源可本地部署
DeepSeek V4 Pro DeepSeek 1467 — −21 −39 成本杀手、LiveCodeBench 93.5、开源
Kimi K2.6 Moonshot 1466 — −22 −40 长上下文 Agent、300 并发子代理
Qwen 3.7 Plus 阿里 — 文本#15 / 编码#12 — — 多模态、价格仅为 Max 的 1/6
关键参照:GPT-5.5 标准版在 Arena 的 Elo 约为 1488(独立评测机构 LLMReference 数据),其 high 变体约 1506(Tech Jack 数据)。在 LMArena 的统计规则里,10 分以内属于噪声,10–30 分是可感知但同一梯队的差距,超过 30 分才是可靠的生产级差异。
---
梯队解读
第一梯队(与 GPT-5.5 标准版差距 < 20 分)
- Qwen 3.7 Max(1475,差距 13 分):目前排名最高的国产模型,文本榜 #13,编码榜 #10。在 SWE-bench Pro(60.6%)和 Terminal-Bench 2.0(69.7%)上已能跟 Claude Opus 4.6/GPT-5.5 互有胜负,定价 2.5/7.5 每百万 token,约为 GPT-5.5 的 1/4。
- ERNIE 5.1(1473,差距 15 分)与 GLM-5.1(1471,差距 17 分):两者在 Arena 上咬得很紧,GLM-5.1 的优势在于开源权重(MIT 协议)和 SWE-bench 表现;ERNIE 5.1 则在中文语境和多模态上更深。
第二梯队(差距 20–30 分,仍属 frontier-adjacent)
- DeepSeek V4 Pro(1467)和 Kimi K2.6(1466):与 GPT-5.5 标准版差距约 21–22 分,尚未进入"无差别区间",但在编码和 Agent 场景已是国内主力。DeepSeek 的杀手锏是价格(输入 0.435/百万 token)和开源;Kimi K2.6 的杀手锏是 2M 上下文和 300 并发 Agent Swarm。
---
需要注意的三个现实
1. LongCat-2.0 尚未入榜
美团 6 月底刚发布的 LongCat-2.0(1.6T MoE)目前权重仍显示 "coming soon",未进入 Arena 盲测池,因此暂无 Elo 数据。需等 7 月中下旬第三方独立评测积累足够投票后才能见分晓。
2. MiniMax 3 的"异常高位"待验证
有单一来源(Renovate QR)显示 MiniMax 3 的 Arena Elo 高达 1528(#6),甚至高于 GPT-5.5 标准版。但该数据未被其他独立评测机构复现,且 MiniMax 的海外曝光度较低,可能存在样本偏差或短期波动,建议暂列为"观察对象"而非定论。
3. Arena 排名是动态快照,7 月可能洗牌
Qwen 3.7 Plus(6 月 1 日发布,多模态,价格仅为 Max 的 1/6)已在 Vision Arena 冲到 #16,文本 #15,后续票数继续积累可能继续爬升。Kimi K2.6 的开放权重优势也会持续吸引社区投票。
---
一句话总结
如果只看盲测人类偏好(Arena Elo),国内模型里 Qwen 3.7 Max 离 GPT-5.5 最近(仅差 13 分),已处于"同一梯队、微弱差距"的临界线上;ERNIE 5.1 和 GLM-5.1 紧随其后。DeepSeek 和 Kimi 在绝对 Elo 上差半档,但在编码/Agent 专项和成本上反而更具生产价值。 LongCat-2.0 入榜后是否改变这个格局,要到 7 月中下旬才能验证。
发布于 上海
