Qwen3.5模型测试分析

闽粤过年民俗体验之旅结束了，刚回北京，看到mac有mlx-community做好的5bit qwen3.5的35b3a和27b就下来玩了一下，实话说比glm的4.7flash好太多了，目前qwen在这个中size（目前企业里私有部署最大的size domain里）是没有对手的，非常好的中size，我先测试了一下35b3a，觉得很不错，结果看benchmark 27b更牛逼，但27太慢了，我甚至觉得比3代32b还慢，上去HF 看了一下config，35b3a 的intermediate size就512，256个experts，比3代更狠（128），也就意味着更挤压dense qkv部分的权重size，算下来也就2B左右吧[允悲]，model大了，qkv却更小了，够狠，合着attenion基本简单走个形式了[费解]