陈红兵
25-06-08 23:56 微博认证:安徽美通资产管理有限公司董事长 财经观察官 知名财经博主 微博原创视频博主

此次数学高考,DeepSeek以143分的成绩位列榜首,讯飞星火以141分紧随其后,位居第二,GPT o3则以138分获得第三名。
本次排名第一的DeepSeek R1模型,是在5月28日升级了最新版本,也是本次评测的模型里最“新”的一位考生,升级后的版本在思考推理、数学能力、响应速度等方面有了大幅提升,但其在实际应用中也暴露出了一些明显短板。首先在实测中,我们发现DeepSeek 在OCR识别效果不理想,出现不少题目识别错误,为确保准确性,我们只能用其他AI将试卷图片转化为文本问题,再给到DeepSeek作答;其次,DeepSeek 模型版本较大,导致推理速度慢、资源消耗高,在实际的教学场景中可能面临响应效率问题。

此外,在这次考试中仅以2分之差紧随其后的讯飞星火,是在4月20日升级,版本较早,但在模型量级更小(70b)的情况下,其依然取得了141分的高分,并显著超越了豆包等其他参与测评的国内大模型。尤其值得一提的是,讯飞星火X1是基于全国产算力平台训练出来的,可见他们背后的自主技术研发实力值得肯定,讯飞在教育领域长达20多年的资源积累,也体现在了讯飞星火在数学能力上的高效准确。

作为国产大模型的代表,豆包、通义千问等大模型分数紧跟GPT o3,基本上和国际顶尖的模型水平打了个平手。

发布于 安徽