Gemma-4与Qwen3.5测试对比

早上，花了一早上时间测试谷歌的Gemma-4，主要是和Qwen3.5做对比，跑了很多我们的生产中用的测试。结果：
在同等大小的模型中，G4出现了输出json格式不对，写简单的python代码出现多出无效字符
我的结论是，在小模型上，Qwen3.5已经是天花板。即使后面再有出新的模型，也不会有什么大的改进。
小模型的竞争已经结束了，就这样了。

发布于北京