大模型,如今堪称AI界的「吞金巨兽」。从写诗到解题,从对话到编程,它们几乎无所不能,但动辄千亿甚至万亿参数的规模,让部署成本高得离谱。
以FP16精度部署的DeepSeek-R1 671B为例,推理时大概需要1342GB的显存,如果是32GB 5090显卡,需要整整42张!
为了降低成本,天才工程师们想出了后训练量化(Post-training Quantization,PTQ)的方法,它能够在有限的校准数据和计算资源下对模型进行高效压缩。
但是PTQ依然带来新的问题——在极低比特精度(如W2A16、W4A4)时往往会出现明显的性能下降,规模是降了,但是不好用了!
就在这关键时刻,华为诺亚方舟实验室联合中科大亮出了「杀手锏」——CBQ(Cross-Block Quantization),一种基于跨块重建的后训练量化方案。
相比量化感知训练(QAT)所需数据量,CBQ仅用0.1%的训练数据,一键压缩大模型至1/7体积——浮点模型性能保留99%,真正实现「轻量不降智」。
值得一提的是,这项成果已荣登ICLR 2025 Spotlight(录取率仅5%)。
它不仅展现了大模型压缩领域的创新性和实用性,更像一颗信号弹,宣告大模型在国产算力上的普及时代已然来临!
目前,CBQ已作为可调用的算法之一,正式加入昇腾模型压缩工具包ModelSlim,帮助开发者在昇腾芯片上实现LLM的高效部署。
论文地址:http://t.cn/A6gmTJ5o
