此次数学高考，DeepSeek以143分的成绩位列榜首，讯飞星火以141分紧随其后，位居第二，GPT o3则以138分获得第三名。本次排名第一的DeepSeek R1模型，是在5月28日升级了最新版本，也是本次评测的模型里最“新”的一位考生，升级后的版本在思考推理、数学能力、响应速度等方面有了大幅提升，但其在实际应

此次数学高考，DeepSeek以143分的成绩位列榜首，讯飞星火以141分紧随其后，位居第二，GPT o3则以138分获得第三名。
本次排名第一的DeepSeek R1模型，是在5月28日升级了最新版本，也是本次评测的模型里最“新”的一位考生，升级后的版本在思考推理、数学能力、响应速度等方面有了大幅提升，但其在实际应用中也暴露出了一些明显短板。首先在实测中，我们发现DeepSeek 在OCR识别效果不理想，出现不少题目识别错误，为确保准确性，我们只能用其他AI将试卷图片转化为文本问题，再给到DeepSeek作答；其次，DeepSeek 模型版本较大，导致推理速度慢、资源消耗高，在实际的教学场景中可能面临响应效率问题。

此外，在这次考试中仅以2分之差紧随其后的讯飞星火，是在4月20日升级，版本较早，但在模型量级更小（70b）的情况下，其依然取得了141分的高分，并显著超越了豆包等其他参与测评的国内大模型。尤其值得一提的是，讯飞星火X1是基于全国产算力平台训练出来的，可见他们背后的自主技术研发实力值得肯定，讯飞在教育领域长达20多年的资源积累，也体现在了讯飞星火在数学能力上的高效准确。

作为国产大模型的代表，豆包、通义千问等大模型分数紧跟GPT o3，基本上和国际顶尖的模型水平打了个平手。

发布于安徽