斌叔OKmath 26-04-08 14:09
微博认证:橙旭园CEO 教育博主

Qwen3.5 27B vs Gemma 4 31B IT

以下是我认为 Gemma 4 31B 获胜的原因:

两个模型的基准分数非常接近。
泛化能力则不然。

我重用了 NVIDIA 的 CoDeC 指标来探测“基准亲和性”。
官方上,CoDeC > 80 表明存在污染。
我从未见过这种情况。但即使低于该值,它仍能揭示模型对基准的亲和程度。

更高的 CoDeC 分数意味着模型对基准更“适应”。
因此,理想的特征是:
高基准分数 + 低 CoDeC。

通过这个视角,Gemma 4 明显强于 Qwen3.5。

Gemma 4 很可能在未见任务上泛化更好。
我之前在 Gemma 3 与 Qwen3 的比较中观察到相同的模式。

发布于 北京