阿里Qwen3.6-Plus编程榜第二

别光盯着GPT-5，这个中国模型闷声干了个大的

刚刷到LMArena的最新编程榜，有点意外。

阿里刚发的Qwen3.6-Plus，在Code Arena的React专项榜上直接冲到全球第二，1452分。什么概念？排它前面的是Claude-Opus-4.6-Thinking（1540分），但身后压着OpenAI的GPT-5.0-High（1448分）和Google的Gemini 3.1 Pro Preview（1440分）。

这是目前中国模型在AI编程这个硬核赛道上拿到的最高排名。

更值得聊的是细节：

1. React榜单不是写段代码就完事。它考的是真实Web开发场景下的端到端能力——从项目初始化、写代码到调试运行，模型得自己独立走完全流程。传统那种“补全几行函数”的测试，在这榜单面前有点像开卷抄笔记。
2. 参数更少但性能更强。报道里提了一句，千问3.6在多项编程评测里，跑赢了参数量两到三倍的GLM-5、Kimi-K2.5。这个信号比单纯刷榜更有意思：堆参数的路子可能不是唯一解，架构和训练方法的优化还有大空间。
3. 这是千问3.6系列的第一款模型。后面还有开源的其他尺寸版本，以及更强的旗舰版Qwen3.6-Max。按照阿里之前的节奏，开源社区估计又能热闹一阵。

盲测榜单这玩意儿，确实没法百分百代表真实落地体验，但LMArena的机制是真实用户对抗排位，相比厂商自报的成绩，水分少很多。千问3.6能在这上面压过GPT-5和Gemini 3.1，至少说明在复杂工程化任务上，国产模型已经不再是“追赶者”的角色。

我更好奇的是：当模型能独立完成一个完整Web项目的搭建和调试，前端低代码工具下一步会怎么变？开发者的角色会不会从“写代码的人”转向“审代码和定需求的人”？ http://t.cn/AXIRKMJ0

发布于福建