3月30日,中文大模型评测平台SuperCLUE发布2026年3月最新测评结果,共22款国内外主流模型参与。本次评测围绕数学推理、科学推理、代码生成等六大核心任务展开,全面衡量模型综合能力。#中文大模型测评出炉#,#豆包跻身全球大模型第一梯队#
字节跳动旗下豆包(Doubao-Seed-2.0-pro-260215(high))以71.53分的成绩位列国内第一,成功迈入全球第一梯队。海外闭源模型仍占据总分前三,依次为Anthropic的Claude-Opus-4.6(max)、Google的Gemini-3.1-Pro-Preview(high)和OpenAI的GPT-5.4(xhigh)。豆包紧随其后,总分与GPT-5.4仅差0.95分,实现全方位追赶,并在智能体任务规划维度超越部分海外模型,跻身全球前五。
小米旗下两款模型也入选榜单。MiMo-V2-Pro以60.67分位列闭源模型前列,在数学推理任务中取得84.03分的亮眼表现;开源版本MiMo-V2-Flash获得49.97分,在代码生成等细分场景中展现出一定潜力。
国产模型整体表现突出,开源赛道尤为亮眼。Kimi-K2.5-Thinking、Qwen3.5-397B-A17B-Thinking等国产开源模型包揽开源榜前三,大幅领先海外同类模型。
发布于 江西
