微软开源了一个推理框架,可以在单CPU上运行 1000 亿参数的 LLM。
它叫做BitNet。http://t.cn/A6EFAAwA
按微软官方说法
无需GPU,无需云服务,无需价值1万美元的硬件配置。只需一台笔记本电脑,就能以人类阅读的速度运行一个拥有1000亿个参数的模型。
它的运作方式如下:
其他所有 LLM 都以 32 位或 16 位浮点数存储权重。
BitNet 使用 1.58 位。
权重是三元的,只有 -1、0 或 +1。仅此而已。没有浮点数。没有昂贵的矩阵运算。纯粹的整数运算,CPU 本来就适合于此。
结果:
- 100B 模型在单个 CPU 上运行,每秒处理 5-7 个令牌。
在 x86 平台上,速度比 llama.cpp 快 2.37 倍到 6.17 倍。
- x86 CPU 能耗降低 82%
- 在 ARM 架构(例如您的 MacBook)上速度提升 1.37 倍至 5.07 倍
- 内存占用比全精度型号低 16-32 倍
最疯狂的部分:
准确率几乎没有变化。
BitNet b1.58 2B4T 是他们的旗舰模型,使用 4 万亿个代币进行训练,其基准测试结果与同等规模的全精度模型不相上下。量化并不会降低模型质量,它只是去除了冗余数据。 http://t.cn/AXVWq4Ht
发布于 黑龙江
