nyt-connections 的测试结果出了，Baidu Ernie 4.5 300B A47B 得分是 15.2，Qwen 2.5 Max 得分是 18. 之前 KCORES LLM Arena 的测试结果也差不多，基本是打不过 Qwen 2.5 Max 的。所以不太建议用。这个测试很有意思，使用 651 个纽约时报的解谜游戏谜题评估大型语言模型。测试地址：

nyt-connections 的测试结果出了，Baidu Ernie 4.5 300B A47B 得分是 15.2，Qwen 2.5 Max 得分是 18. 之前 KCORES LLM Arena 的测试结果也差不多，基本是打不过 Qwen 2.5 Max 的。所以不太建议用。

这个测试很有意思，使用 651 个纽约时报的解谜游戏谜题评估大型语言模型。

测试地址：github.com/lechmazur/nyt-connections

#ai创造营##AI生活指南#

发布于日本