物理芝士数学酱
26-03-11 23:58 微博认证:科学科普博主 微博原创视频博主

微软开源了一个推理框架,可以在单CPU上运行 1000 亿参数的 LLM。

它叫做BitNet。http://t.cn/A6EFAAwA

按微软官方说法

无需GPU,无需云服务,无需价值1万美元的硬件配置。只需一台笔记本电脑,就能以人类阅读的速度运行一个拥有1000亿个参数的模型。

它的运作方式如下:

其他所有 LLM 都以 32 位或 16 位浮点数存储权重。

BitNet 使用 1.58 位。

权重是三元的,只有 -1、0 或 +1。仅此而已。没有浮点数。没有昂贵的矩阵运算。纯粹的整数运算,CPU 本来就适合于此。

结果:

- 100B 模型在单个 CPU 上运行,每秒处理 5-7 个令牌。
在 x86 平台上,速度比 llama.cpp 快 2.37 倍到 6.17 倍。
- x86 CPU 能耗降低 82%
- 在 ARM 架构(例如您的 MacBook)上速度提升 1.37 倍至 5.07 倍
- 内存占用比全精度型号低 16-32 倍

最疯狂的部分:

准确率几乎没有变化。

BitNet b1.58 2B4T 是他们的旗舰模型,使用 4 万亿个代币进行训练,其基准测试结果与同等规模的全精度模型不相上下。量化并不会降低模型质量,它只是去除了冗余数据。 http://t.cn/AXVWq4Ht

发布于 黑龙江