今天在群里看到有人发,阿里千问新模型又登顶了,这次登顶的还是 Artificial Analysis。
给不熟悉的朋友们简单解释一下,Artificial Analysis 是一个全球性的第三方AI评测平台,不隶属于任何AI公司。
开发者和企业选模型的时候,经常把这个平台的评测结果当参考依据。
登顶这种事不是经常发生吗?
但这次,确实有点不一样。
1
这次登顶的模型叫 Qwen3.6-Max-Preview,是千问系列里性能最强的旗舰模型。
它在 Artificial Analysis 上超过了很多已经发布、调校完成的模型,拿下了国产模型第一。
我仔细了解了一下这个模型的具体情况,官方说在三个维度上有明显提升:智能体编程、世界知识、指令遵循。
首先是智能体编程这部分。
AI 不只要写代码,还需要理解一个复杂任务,可以自己规划步骤,调用工具,一路执行下去,把事情做完。
Qwen3.6-Max-Preview 在这个方向上,在 SWE-bench Pro、Terminal-Bench 2.0、SkillsBench 等六项主流编程基准测试里,拿到了最好的成绩。
值得多提一句的是 SWE-bench Pro 和 Terminal-Bench 2.0。
SWE-bench 系列测的是真实的 GitHub issue,模型要在实际代码库里定位问题、修改代码、让测试通过,这跟让模型写一段孤立的代码完全不一样。
Terminal-Bench 则是测在终端环境里执行任务的能力,也是更接近真实工作流的场景。
这两个测试相对难刷分,因为任务本身就是真实世界的复杂度。
在这里拿到好成绩,比在 HumanEval 这类经典基准上得分更有参考意义。
其次是世界知识,考验模型对现实世界的了解程度,如历史、科学、文化、常识、各行各业的专业知识。
Qwen3.6-Max-Preview 在 SuperGPQA、QwenChineseBench 等知识评测中都取得了新高,中文知识的表现也单独被列出来,对国内用户来说尤其有意义。
第三是指令遵循,这也是被很多人低估的能力。
你跟模型说按某个格式输出,或者要求它只做某件事不要做另一件事,它能不能真的按你说的来?
指令遵循不好的模型接进系统里会很头疼,因为理解和执行的偏差都会让人崩溃。
2
往前翻了一下,千问这一个多月的发布节奏,非常快。
3月30日出了 Qwen3.5-Omni,全模态,能处理文字图片音频。
4月1日 Wan2.7-Image 上线,专门做图像生成和编辑。
4月2日 Qwen3.6-Plus 发布,在 OpenRouter 上连续拿了日榜周榜趋势榜三个第一。
现在再加上 Qwen3.6-Max 登顶 Artificial Analysis 国产模型榜首,这一个多月,阿里在模型这个赛道上的推进速度,非常惊人。
而且这几个榜单背后代表的用户群是不一样的:OpenRouter 是 API 开发者,Artificial Analysis 是做选型参考的开发者和企业。
不同维度上同时有进展,说明这不只是单点突破。
3
当然,评测成绩和实际用起来的体验,中间永远有个黑盒。
即便 Artificial Analysis 已经比很多评测更接近真实场景,但还是有边界的。更重要的是:你的具体任务,不一定和这些测试重合。
所以该有的判断是,在智能体编程和指令遵循方向有真实提升的话,对 AI 编程工具、自动化工作流这些场景是值得关注的。
想体验的话,Qwen Studio 目前可以免费试用 Qwen3.6-Max-Preview,有开发需求的可以通过阿里云百炼获取 API 接入。
国产 AI 这条路走了几年,现在终于到了可以在某些真实任务上跟国际顶尖水平正面比较的阶段。
