Transformer-周 26-03-01 20:31
微博认证:AI博主

闽粤过年民俗体验之旅结束了,刚回北京,看到mac有mlx-community做好的5bit qwen3.5的35b3a和27b就下来玩了一下,实话说比glm的4.7flash好太多了,目前qwen在这个中size(目前企业里私有部署最大的size domain里)是没有对手的,非常好的中size,我先测试了一下35b3a,觉得很不错,结果看benchmark 27b更牛逼,但27太慢了,我甚至觉得比3代32b还慢,上去HF 看了一下config,35b3a 的intermediate size就512,256个experts,比3代更狠(128),也就意味着更挤压dense qkv部分的权重size,算下来也就2B左右吧[允悲],model大了,qkv却更小了,够狠,合着attenion基本简单走个形式了[费解]

发布于 北京