karminski-牙医
26-05-19 02:35 微博认证:AI博主

Qwen3.7! 就在今天!

ArenAI (就是之前的 LMArena), 刚刚发布了 Qwen3.7-Max-Preview 在 ArenAI 的内测跑分. 整体排名在第13, 处于目前版本国模SOTA.

本次提升最高的是数学能力, 达到了总榜第7, 编程水平在第10. 另外视觉能力测试也来到了第16.

我直接试了一下 ArenaAI 上面的 Qwen3.7-Max-Preview, 题目是一个使用 three.js 画一个软盘蓝图的场景, 主要考察大模型的前端+空间理解+建模能力.

直接看我两张 Qwen3.6-Plus 和 Qwen3.7-Max-Preview 的生成对比 (注意这个图上的元素完全是代码绘制的, 不是大模型生成的图片).

能看到Qwen3.7 在空间理解和指令遵循上有了很大的提升, 能保持所有元素都在同一轴向上(能完成这一点是巨大的进步, 目前 DeepSeek-V4-Pro 还有这方面的问题).

并且摆放顺序和每个标签的标记也是准确的, 以及背景的网点效果也还原了(这就是指令遵循的提升体现). 当然不足的地方也有很多, 比如这个软盘的一些不规则图形的细节刻画还是差了一些. 但是是瑕不掩瑜的.

稍后正式发布后给大家带来 Qwen3.7-Max 的详细评测!

(另外值得注意的是 ArenaAI 给 meta 的新模型 Muse Spark 给到了第5的超高位置. 而目前社区中这个模型一点水花都没有. 我也没API能测这个模型. 所以 ArenaAI 的评分还是仅供参考.)

#HOW I AI##阿里千问##qwen37##qwen37max#

发布于 日本