nyt-connections 的测试结果出了,Baidu Ernie 4.5 300B A47B 得分是 15.2,Qwen 2.5 Max 得分是 18. 之前 KCORES LLM Arena 的测试结果也差不多,基本是打不过 Qwen 2.5 Max 的。所以不太建议用。
这个测试很有意思,使用 651 个纽约时报的解谜游戏谜题评估大型语言模型。
测试地址:github.com/lechmazur/nyt-connections
#ai创造营##AI生活指南#
发布于 日本
