向度之桥 26-01-15 15:38
微博认证:科技博主

我平时经常会关注LMArena这个大模型竞技场的排名变化。
今天,我看到它更新了最新的排名。我花了点时间把榜单翻了一遍,有几个点值得和大家聊聊。

1️⃣ 第一个发现:文心5.0拿下国内第一、全球第八

先说最直接的成绩。
文心大模型ERNIE-5.0-0110这次以1460分的成绩,登上了LMArena文本排行榜的国内第一、全球第八的位置。

它超过了GPT-5.1-High、Gemini-2.5-Pro等一众主流模型。

LMArena的排名是动态的,每天都有大量用户在投票,每隔一段时间各家也都会推出新版本。

能够反复卡在国内第一的位置,说明文心的综合能力确实稳定在了一个水平线上。
但这还不是这次榜单最让我意外的地方。

2️⃣ 第二个发现:最强文科生居然数学考了全球第二

真正让我觉得有意思的是另一个数据。
在LMArena的数学能力专项排名中,文心5.0这次冲到了全球第二,仅次于GPT-5.2-High。

在大模型领域,文心一直有一个标签,叫最强文科生。

这个说法的来源是它在中文理解、文本生成、语义分析这些方面表现特别突出。

中文是一门很复杂的语言,有大量的多义词、省略、隐喻和文化背景知识。
很多国外的大模型在英文环境下表现很好,但一到中文场景就会出现各种奇怪的问题。

但数学是另一回事。
数学测试考察的是逻辑推理、符号运算、抽象思维这些能力。这些东西和语言理解能力有关联,但不是简单的正相关。

很多语言能力很强的模型,在数学测试上表现其实很一般。因为语言理解更依赖的是模式识别和上下文理解,而数学需要的是严格的逻辑链条和准确的计算。

仔细想想,这其实是一个很重要的信号。
它说明文心5.0的能力边界在扩展。这不是偶然考好了一次,而是综合能力的整体提升。

3️⃣ 第三个发现:Preview标签不见了

除了成绩本身,这次榜单还有一个细节被很多人注意到了。
文心5.0这次上榜的版本名称里,Preview这个词消失了。

Preview在软件行业里的意思是预览版、测试版。带着这个标签的产品,厂商是在告诉你:这东西还没完全定型,我们还在打磨,你先用着感受一下,正式版等等再说。

这种做法非常常见。Google的很多产品挂着Beta标签好几年都不摘。OpenAI的新功能也经常先以Preview形式放出来。

文心5.0之前在LMArena上的表现一直很好,多次拿下国内第一,但它一直顶着Preview这个标签,

这次,这个标签没了。

几乎同一时间,百度的海外开发者账号ERNIE for Developers在社交平台发了一条动态。原文是这样的:
Notice anything different about ERNIE 5.0's name on LMArena? 👀 More to come soon.

没有正式宣布什么,但刻意点名了名字变化这件事,感觉像是在留彩蛋。

结合另一个背景信息来看,百度早就宣布了要在1月22日举办文心Moment大会。这是一个产品发布会性质的活动,按照惯例会有重磅产品发布。

现在是1月15日,距离大会正好一周。
在这个时间节点上,榜单上的版本名称突然变了,官方账号又故意提醒大家注意这个变化。

把这些信息串起来,指向性已经很明显了:文心5.0的正式版大概率会在1月22日的大会上官宣发布。

现在的这个变化,更像是正式发布前的一次预热。

从行业惯例来看,Preview转正式版通常意味着几件事。

第一,模型的核心能力已经稳定了。

Preview阶段允许存在一些波动和不确定性,用户也有心理预期说这是测试版可能会有问题。但
正式版不一样,它代表的是厂商正式交付的产品状态,是厂商在说:我们对它的质量负责。

第二,配套的产品化工作已经完成了。

这包括API接口的规范化、开发文档的完善、定价策略的确定、技术支持体系的建立等等。
正式版是要面向用户大规模使用的,相关的基础设施必须到位。

第三,商业化的节奏会加快。

正式版的发布通常伴随着一系列推广动作。合作伙伴会跟进集成,开发者会开始基于正式版构建应用,企业客户也会更愿意采购一个已经转正的产品。

如果文心5.0确实在1月22日发布正式版,百度应该会围绕这次发布做不少动作。

作为目前唯一进入全球前十的中国大模型,文心5.0正式版的发布会获得相当的市场关注。

Preview标签的去除和1月22日大会的临近,让人很难不联想到正式版即将发布。

2025年刚开始,大模型领域就有了新动作。
1月22日的文心Moment大会,可以期待一下了。

发布于 上海