Qwen3.5 27B vs Gemma 4 31B IT
以下是我认为 Gemma 4 31B 获胜的原因:
两个模型的基准分数非常接近。
泛化能力则不然。
我重用了 NVIDIA 的 CoDeC 指标来探测“基准亲和性”。
官方上,CoDeC > 80 表明存在污染。
我从未见过这种情况。但即使低于该值,它仍能揭示模型对基准的亲和程度。
更高的 CoDeC 分数意味着模型对基准更“适应”。
因此,理想的特征是:
高基准分数 + 低 CoDeC。
通过这个视角,Gemma 4 明显强于 Qwen3.5。
Gemma 4 很可能在未见任务上泛化更好。
我之前在 Gemma 3 与 Qwen3 的比较中观察到相同的模式。
发布于 北京
