是煦煦哟 26-04-04 00:10
微博认证:科技博主 超话小主持人(科技超话)

别光盯着GPT-5,这个中国模型闷声干了个大的

刚刷到LMArena的最新编程榜,有点意外。

阿里刚发的Qwen3.6-Plus,在Code Arena的React专项榜上直接冲到全球第二,1452分。什么概念?排它前面的是Claude-Opus-4.6-Thinking(1540分),但身后压着OpenAI的GPT-5.0-High(1448分)和Google的Gemini 3.1 Pro Preview(1440分)。

这是目前中国模型在AI编程这个硬核赛道上拿到的最高排名。

更值得聊的是细节:

1. React榜单不是写段代码就完事。它考的是真实Web开发场景下的端到端能力——从项目初始化、写代码到调试运行,模型得自己独立走完全流程。传统那种“补全几行函数”的测试,在这榜单面前有点像开卷抄笔记。
2. 参数更少但性能更强。报道里提了一句,千问3.6在多项编程评测里,跑赢了参数量两到三倍的GLM-5、Kimi-K2.5。这个信号比单纯刷榜更有意思:堆参数的路子可能不是唯一解,架构和训练方法的优化还有大空间。
3. 这是千问3.6系列的第一款模型。后面还有开源的其他尺寸版本,以及更强的旗舰版Qwen3.6-Max。按照阿里之前的节奏,开源社区估计又能热闹一阵。

盲测榜单这玩意儿,确实没法百分百代表真实落地体验,但LMArena的机制是真实用户对抗排位,相比厂商自报的成绩,水分少很多。千问3.6能在这上面压过GPT-5和Gemini 3.1,至少说明在复杂工程化任务上,国产模型已经不再是“追赶者”的角色。

我更好奇的是:当模型能独立完成一个完整Web项目的搭建和调试,前端低代码工具下一步会怎么变?开发者的角色会不会从“写代码的人”转向“审代码和定需求的人”? http://t.cn/AXIRKMJ0

发布于 福建