karminski-牙医
25-12-11 07:18 微博认证:AI博主

来看新框架 MagicQuant 帮你自动选择最佳量化模型

大家在本地部署大模型的时候, 肯定会因为显存不足考虑量化版本, 而一个大模型通常会有好几种甚至几十种量化版本, 该选哪个?

就在前几天 MagicQuant 的出现解决这个问题, 这是一个框架, 可以通过进化算法为任何模型找到最佳的张量级混合量化方案.

这个框架足够智能, 它不是按层优化,而是按架构功能分组张量,这大大降低了搜索空间的复杂度.

而且经过研究, 发现不同架构对量化的敏感性差异巨大:某些层可以承受 Q2,而某些层在低于 Q6 时就会崩溃

另外还发现了一个反直觉的现象:MXFP4 作为基础层在许多模型上表现优异, 所以绝大部分参数(FFN)可以压缩至 MXFP4_MOE, 而少量敏感参数(Embeddings、Attention Output)保持在 Q8_0 或 Q6_K.

#ai创造营##ai生活指南#

发布于 美国