我平时经常会关注LMArena这个大模型竞技场的排名变化。
今天,我看到它更新了最新的排名。我花了点时间把榜单翻了一遍,有几个点值得和大家聊聊。
1️⃣ 第一个发现:文心5.0拿下国内第一、全球第八
先说最直接的成绩。
文心大模型ERNIE-5.0-0110这次以1460分的成绩,登上了LMArena文本排行榜的国内第一、全球第八的位置。
它超过了GPT-5.1-High、Gemini-2.5-Pro等一众主流模型。
LMArena的排名是动态的,每天都有大量用户在投票,每隔一段时间各家也都会推出新版本。
能够反复卡在国内第一的位置,说明文心的综合能力确实稳定在了一个水平线上。
但这还不是这次榜单最让我意外的地方。
2️⃣ 第二个发现:最强文科生居然数学考了全球第二
真正让我觉得有意思的是另一个数据。
在LMArena的数学能力专项排名中,文心5.0这次冲到了全球第二,仅次于GPT-5.2-High。
在大模型领域,文心一直有一个标签,叫最强文科生。
这个说法的来源是它在中文理解、文本生成、语义分析这些方面表现特别突出。
中文是一门很复杂的语言,有大量的多义词、省略、隐喻和文化背景知识。
很多国外的大模型在英文环境下表现很好,但一到中文场景就会出现各种奇怪的问题。
但数学是另一回事。
数学测试考察的是逻辑推理、符号运算、抽象思维这些能力。这些东西和语言理解能力有关联,但不是简单的正相关。
很多语言能力很强的模型,在数学测试上表现其实很一般。因为语言理解更依赖的是模式识别和上下文理解,而数学需要的是严格的逻辑链条和准确的计算。
仔细想想,这其实是一个很重要的信号。
它说明文心5.0的能力边界在扩展。这不是偶然考好了一次,而是综合能力的整体提升。
3️⃣ 第三个发现:Preview标签不见了
除了成绩本身,这次榜单还有一个细节被很多人注意到了。
文心5.0这次上榜的版本名称里,Preview这个词消失了。
Preview在软件行业里的意思是预览版、测试版。带着这个标签的产品,厂商是在告诉你:这东西还没完全定型,我们还在打磨,你先用着感受一下,正式版等等再说。
这种做法非常常见。Google的很多产品挂着Beta标签好几年都不摘。OpenAI的新功能也经常先以Preview形式放出来。
文心5.0之前在LMArena上的表现一直很好,多次拿下国内第一,但它一直顶着Preview这个标签,
这次,这个标签没了。
几乎同一时间,百度的海外开发者账号ERNIE for Developers在社交平台发了一条动态。原文是这样的:
Notice anything different about ERNIE 5.0's name on LMArena? 👀 More to come soon.
没有正式宣布什么,但刻意点名了名字变化这件事,感觉像是在留彩蛋。
结合另一个背景信息来看,百度早就宣布了要在1月22日举办文心Moment大会。这是一个产品发布会性质的活动,按照惯例会有重磅产品发布。
现在是1月15日,距离大会正好一周。
在这个时间节点上,榜单上的版本名称突然变了,官方账号又故意提醒大家注意这个变化。
把这些信息串起来,指向性已经很明显了:文心5.0的正式版大概率会在1月22日的大会上官宣发布。
现在的这个变化,更像是正式发布前的一次预热。
从行业惯例来看,Preview转正式版通常意味着几件事。
第一,模型的核心能力已经稳定了。
Preview阶段允许存在一些波动和不确定性,用户也有心理预期说这是测试版可能会有问题。但
正式版不一样,它代表的是厂商正式交付的产品状态,是厂商在说:我们对它的质量负责。
第二,配套的产品化工作已经完成了。
这包括API接口的规范化、开发文档的完善、定价策略的确定、技术支持体系的建立等等。
正式版是要面向用户大规模使用的,相关的基础设施必须到位。
第三,商业化的节奏会加快。
正式版的发布通常伴随着一系列推广动作。合作伙伴会跟进集成,开发者会开始基于正式版构建应用,企业客户也会更愿意采购一个已经转正的产品。
如果文心5.0确实在1月22日发布正式版,百度应该会围绕这次发布做不少动作。
作为目前唯一进入全球前十的中国大模型,文心5.0正式版的发布会获得相当的市场关注。
Preview标签的去除和1月22日大会的临近,让人很难不联想到正式版即将发布。
2025年刚开始,大模型领域就有了新动作。
1月22日的文心Moment大会,可以期待一下了。
