兄弟们不得了🙃微软开源了一个能将模型参数压缩到原来的1/20 的工具使得在普通电脑CPU上跑100B参数模型推理速度接近人类阅读速度（5～7 tokens/sec）支持在 ARM 和 x86 CPU 上运行 1 位 LLMs 模型，实现 1.37 倍到 6.17 倍的加速，并大幅降低能耗ARM CPU：最高快 5 倍x86 CPU：最高快 6

兄弟们不得了🙃

微软开源了一个能将模型参数压缩到原来的1/20 的工具

使得在普通电脑CPU上跑100B参数模型

推理速度接近人类阅读速度（5～7 tokens/sec）

支持在 ARM 和 x86 CPU 上运行 1 位 LLMs 模型，实现 1.37 倍到 6.17 倍的加速，并大幅降低能耗

ARM CPU：最高快 5 倍
x86 CPU：最高快 6 倍

能耗降低：

最低减少 55%
最高可达 82%

✅ 技术上的意义：

BitNet 推动了“大模型轻量化”的极限边界。

传统大模型（GPT-3、LLaMA）虽然功能强大，但有几个致命问题：

模型太大，动辄几十GB

运行要靠昂贵的 GPU

普通用户根本用不起

而 BitNet 用创新的 1.58-bit 表示方式，把模型压缩到原来的 1/10~1/20 大小，还能保持不错的性能，让模型：

可以在 CPU 上跑

不需要高端硬件

速度也不慢（5～7 tokens/秒）

这就像：过去只能在超级计算机上运行的 GPT，现在普通电脑也能用，加速了AI的普及和移动化。

详细内容：http://t.cn/A6d2vxOG http://t.cn/A6d2v6BY

发布于安徽