阑夕 26-02-25 21:12
微博认证:逐鹿网(www.zhulu.com)创始人 长文原创作者 2024微博年度新知博主

过了个春节,字节的Seed 2.0模型已经排在了LMArena综合榜的第8,也是唯一进入全球TOP10的国产大模型。

过去有不少人觉得豆包产品做得好,但模型能力不够强。一方面是因为豆包用户量大,产品接的是中小尺寸的模型。另一方面,字节的LLM以前从不打榜,很难有个直观判断。

在Seedance 2.0轰动全球之后,字节不光派出Seed 2.0去国际大模型竞技场比拼,还把最强版本Seed 2.0 pro接入豆包(专家模式),无疑是要在基础模型能力上争口气。

科普一下,LMArena是加州伯克利大学牵头成立的大模型竞技场,任何人都可以去网站上向AI提问题,然后在模型匿名的情况下,让用户在答案之间做出盲测选择。由于投票基数很大——目前一共收到了超过300万次盲评——所以在人类真实喜好这个标准上,LMArena是准确度最高的,没有之一。

尤其是在主流模型智能水平高度对齐、刷题已经不剩多少意义的情况下,LMArena的含金量就更高了,很多海外社区用户在模型发布后的第一时间就要跑去测一下,除了Seed 2.0之外,这月新发布的Gemini 3.1 pro、Grok 4.2的投票数也都超过了4000,足见人们的热情之高。

来看最近新发布的几款国产大模型,Seed 2.0在综合榜和文本榜都排到全球第8,视觉榜更是排到了第4,仅次于Gemini 的三款模型。GLM、Kimi、Qwen的新模型在文本和综合榜排到十多名,Kimi k2.5的视觉理解表现也不错,在视觉榜排到了第8。

图像和视频领域,则是字节大模型的传统强项。几个月前发布的Seedream 4.5,现在仍然排在图像编辑榜第7,也是国产第一。

可惜的是,Seedance 2.0还没去打榜。据说为了解决版权保护和DeepFake问题,API还没有开放。否则一旦去LMArena,必然是在文生视频、图生视频这些榜单里嘎嘎乱杀了。

前不久,Google DeepMind 掌门人哈萨比斯公开说,字节是中国最强的AI公司。现在看来,字节不仅是文本、视觉理解、图像生成、视频生成这几个主要赛道领先,LMArena上没有列入的语音模型,豆包语音也是可以和老罗辩论的存在。

值得注意的是,Seed 2.0在LMArena打榜时用了Dola前缀(海外版AI助手品牌)。这或许是字节要在全球市场和Gemini、GPT正面竞争的一个信号。

字节大模型,要开始全线冲锋了。

发布于 北京