【美国知名测评：继DeepSeek后，#通义千问也追上OpenAI#】阿里云通义团队于大年初一发布旗舰模型“Qwen2.5-Max”，已成为继深度求索（DeepSeek）后，第二家可以比肩美国OpenAI公司o1系列的中国大语言模型。近日，三方基准测试平台LMArena的大语言模型盲测榜单（“ChatBot Arena LLM”）最新排名显示

【美国知名测评：继DeepSeek后，#通义千问也追上OpenAI#】阿里云通义团队于大年初一发布旗舰模型“Qwen2.5-Max”，已成为继深度求索（DeepSeek）后，第二家可以比肩美国OpenAI公司o1系列的中国大语言模型。

近日，三方基准测试平台LMArena的大语言模型盲测榜单（“ChatBot Arena LLM”）最新排名显示，“Qwen2.5-Max”以1332分排总榜第7名，超过了深度求索的“DeepSeek-V3”以及OpenAI的“o1-mini”。而在数学和编程方面，“Qwen2.5-Max”则排名第1，在Hard prompts方面排名第2。

“ChatBot Arena LLM”榜单由美国加州大学伯利克分校天空计算实验室与LMArena联合开发，通过用户盲测的方式，覆盖了对话、代码、图文生成、网页开发等多维度能力评估，最终基于260万票结果反映出197个模型在真实体验下的排名情况，也是业内公认的权威榜单。

该榜单最新的更新时间为当地时间的2月2日，其中OpenAI的多个版本模型占据高位，比如第3位的“ChatGPT-4o”，同时还有谷歌的“Gemini-2.0”、xAI的“Grok-2”等，但这些模型均为闭源模型。

而在开源模型方面，“DeepSeek-R1”一骑绝尘，与“ChatGPT-4o-latest”并列榜单第3，紧随其后的就是排名第7的阿里云通义“Qwen-max-2025-01-25”（即Qwen2.5-Max），“DeepSeek-V3”和中国智谱模型“GLM-4-Plus-0111”则分别排名第8、第9，而阶跃星辰的“Step-2-16K-Exp”模型则与“o1-Mini”并列第10。榜单前10名中有5个中国大语言模型，也体现出中国人工智能团队在全球范围内的强技术竞争力。

去年6月、9月，阿里云通义模型也曾两度登顶全球最强开源模型的宝座，但由于未能追平超越闭源模型，讨论热度不及12月的DeepSeek-V3。今年1月29日凌晨1时，阿里云通义团队正式对外发布“Qwen2.5-Max”，该模型采用超大规模混合专家（MoE, Mixture of Experts）架构，训练数据超过20万亿tokens，并在知识（测试大学水平知识的MMLU-Pro）、编程（LiveCodeBench）、全面评估综合能力的（LiveBench）以及人类偏好对齐（Arena-Hard）等主流权威基准测试上，展现出全球领先的模型性能。