大模型，如今堪称AI界的「吞金巨兽」。从写诗到解题，从对话到编程，它们几乎无所不能，但动辄千亿甚至万亿参数的规模，让部署成本高得离谱。以FP16精度部署的DeepSeek-R1 671B为例，推理时大概需要1342GB的显存，如果是32GB 5090显卡，需要整整42张！为了降低成本，天才工程师们想出了后训练量化

大模型，如今堪称AI界的「吞金巨兽」。从写诗到解题，从对话到编程，它们几乎无所不能，但动辄千亿甚至万亿参数的规模，让部署成本高得离谱。

以FP16精度部署的DeepSeek-R1 671B为例，推理时大概需要1342GB的显存，如果是32GB 5090显卡，需要整整42张！

为了降低成本，天才工程师们想出了后训练量化（Post-training Quantization，PTQ）的方法，它能够在有限的校准数据和计算资源下对模型进行高效压缩。

但是PTQ依然带来新的问题——在极低比特精度（如W2A16、W4A4）时往往会出现明显的性能下降，规模是降了，但是不好用了！

就在这关键时刻，华为诺亚方舟实验室联合中科大亮出了「杀手锏」——CBQ（Cross-Block Quantization），一种基于跨块重建的后训练量化方案。

相比量化感知训练（QAT）所需数据量，CBQ仅用0.1%的训练数据，一键压缩大模型至1/7体积——浮点模型性能保留99%，真正实现「轻量不降智」。

值得一提的是，这项成果已荣登ICLR 2025 Spotlight（录取率仅5%）。

它不仅展现了大模型压缩领域的创新性和实用性，更像一颗信号弹，宣告大模型在国产算力上的普及时代已然来临！

目前，CBQ已作为可调用的算法之一，正式加入昇腾模型压缩工具包ModelSlim，帮助开发者在昇腾芯片上实现LLM的高效部署。

论文地址：http://t.cn/A6gmTJ5o