不是qwen这是跟gemma杠上了?
给大家带来刚发布的 Qwen3.6-35B-A3B 的性能解读, 来看究竟能不能打得过 Gemma4?
我没有像官方那样直接把SOTA成绩做了个柱状图, 而是把披露的所有benchmark成绩给大家按照每个大项单独做了个SOTA高亮表格.
从提升趋势看 Qwen3.6-35B-A3B 的提升方向确实是 agent / agentic coding. Coding Agent 里拿下了 10 项中的 6 项表内第一, 尤其是 Terminal-Bench 2.0, Claw-Eval Avg, SkillsBench Avg5, QwenClawBench, NL2Repo, QwenWebBench 这些更偏"工具调用 + 长链执行 + 环境操作 + 前端生成"的项目, 提升很集中.
General Agent 里它也拿下了 DeepPlanning 和 MCPMark 两项第一, 说明不只是编码, 通用智能体执行和 MCP 协议使用也有增强
相比之下, Knowledge (知识能力) 几乎没有领先, STEM & Reasoning 也只是 GPQA 和 AIME26 两项占优, 所以这次更新重点不是全面的知识/推理能力飞跃, 更多是把模型能力重新往 agent 场景做了强化和对齐.
不过测试来看, 更新之后 Gemma4 是面临两面夹击, 考验激活参数量性能的测试比如MMLU系列有旧的 Qwen3.5-27B, Agent 能力的则有这次的 Qwen3.6-35B-A3B. 建议 Gemma 赶紧也发一个 4.1 让本地部署玩家开心一波.
不过更新就有这种水平的提升, 以及目前 Qwen3.5-27B Dense 仍然是几个指标的SOTA, 感觉 Qwen3.6-27B Dense 这个能在60B以内做到真正的SOTA. 我本地龙虾/爱马仕已经饥渴难耐了.
#HOW I AI#
