Gemma4与Qwen3.5对比分析

Qwen3.5 27B vs Gemma 4 31B IT

以下是我认为 Gemma 4 31B 获胜的原因：

两个模型的基准分数非常接近。
泛化能力则不然。

我重用了 NVIDIA 的 CoDeC 指标来探测“基准亲和性”。
官方上，CoDeC > 80 表明存在污染。
我从未见过这种情况。但即使低于该值，它仍能揭示模型对基准的亲和程度。

更高的 CoDeC 分数意味着模型对基准更“适应”。
因此，理想的特征是：
高基准分数 + 低 CoDeC。

通过这个视角，Gemma 4 明显强于 Qwen3.5。

Gemma 4 很可能在未见任务上泛化更好。
我之前在 Gemma 3 与 Qwen3 的比较中观察到相同的模式。

发布于北京