我几乎可以肯定,Q4 KV 缓存量化会毁掉 Qwen3.5。
没有。
目前为止,我还没有发现任何明显的准确率下降。
也就是说,它可能只对好的 GGUF 版本有效。
如果从量化较差的 Qwen3.5(例如 Q2)开始,则 KV 缓存的噪声已经更大,并且更难可靠地量化。
注意:再次强调,量化模型的性能高于原始模型并不奇怪。在小规模基准测试中,这种情况可能会发生,而且影响并不显著。更改随机种子也会产生这种效果。
明天,我将在我的博客上发布关于 Qwen3.5 GGUF 评估的完整总结(链接在个人简介中),包括评估方法和最新结果。
发布于 北京
