微软开源BitNet框架

微软开源了一个推理框架，可以在单CPU上运行 1000 亿参数的 LLM。

它叫做BitNet。http://t.cn/A6EFAAwA

按微软官方说法

无需GPU，无需云服务，无需价值1万美元的硬件配置。只需一台笔记本电脑，就能以人类阅读的速度运行一个拥有1000亿个参数的模型。

它的运作方式如下：

其他所有 LLM 都以 32 位或 16 位浮点数存储权重。

BitNet 使用 1.58 位。

权重是三元的，只有 -1、0 或 +1。仅此而已。没有浮点数。没有昂贵的矩阵运算。纯粹的整数运算，CPU 本来就适合于此。

结果：

- 100B 模型在单个 CPU 上运行，每秒处理 5-7 个令牌。
在 x86 平台上，速度比 llama.cpp 快 2.37 倍到 6.17 倍。
- x86 CPU 能耗降低 82%
- 在 ARM 架构（例如您的 MacBook）上速度提升 1.37 倍至 5.07 倍
- 内存占用比全精度型号低 16-32 倍

最疯狂的部分：

准确率几乎没有变化。

BitNet b1.58 2B4T 是他们的旗舰模型，使用 4 万亿个代币进行训练，其基准测试结果与同等规模的全精度模型不相上下。量化并不会降低模型质量，它只是去除了冗余数据。 http://t.cn/AXVWq4Ht

发布于黑龙江