这两天刷到LMArena更新了最新的文本排行榜,文心5.0又一次登上国内第一。
这个结果本身不算意外。
但我这次注意到一个细节:文心5.0的名字变了。
后面那个Preview不见了。
在大模型领域,Preview这个标签的意思很明确,就是预览版。
也就是产品还没正式定型,还在调试和优化阶段。
过去几个月,文心5.0一直顶着这个Preview标签在LMArena上打比赛。
成绩其实已经很能打了,反复拿下国内第一,多次进入全球前十。
但名字后面始终挂着那个Preview,说明官方还没给它盖章认证。
这次不一样。
最新的排行榜上,文心5.0后面那个Preview已经不见了。
就在这次榜单更新后不久,百度的海外开发者账号发了一条消息,原文大意是:有没有注意到文心5.0在LMArena上的名字有什么不同?更多信息即将揭晓。
再结合另一个背景信息,1月22日,百度要在上海开一场叫文心Moment的大会。
把这几件事放在一起看,逻辑就比较清晰了。
去掉Preview大概率是正式发布前的一个预热动作。
大会还没开,但信号已经放出来了。
说完这个细节,再来看看这次的成绩本身。
文心5.0拿到1460分,国内第一,全球第八。超过了GPT-5.1-High、Gemini-2.5-Pro这些海外主流模型。
但更让我意外的是另一个数据。
在数学能力排名里,文心5.0拿到了全球第二。
在很多人的印象里,文心一直是那种文本能力特别强的模型,算是主流AI里的“最强文科生”。
结果这个文科生突然在数学考试里也冲到了第二名,属于是跨界突袭了。
一个模型如果只有单项能力强,商业价值其实有限。
真正能打的,需要综合能力均衡。
文心这次的表现,说明它正在往这个方向走。
还有一件事值得单独拿出来说。
我专门翻了一下LMArena的全球前十榜单,中国大模型里面只有文心一个名字。
这不是第一次了。
LMArena这个平台有个特点,它采用的是盲测对战机制。用户不知道自己在跟哪个模型对话,纯粹根据回答质量来投票。
这种机制下想刷分很难,能稳定待在前列的,基本都是真有实力。
所以文心能反复卡位国内第一、全球前十,不是运气。
但最终的效果到底如何,还是要等22号大会之后才能验证。
但有一点可以确定,从Preview到去掉Preview,这个变化背后一定经过了大量内部测试和评估。没人会在没准备好的情况下把试用期标签摘掉。
在很多竞技领域里,进入头部阵营和在中游徘徊是完全不同的两件事。
进入前十意味着你已经有资格和最强的那批选手同场竞技,意味着你的方法论和技术路径是被验证过的,意味着后续的进步有了更坚实的基础。
而从预览版走向正式版,则意味着另一个阶段的开始。
国产大模型走到今天,不容易。
