互联网的那点事 25-04-21 22:03
微博认证:微博互联网观察家

兄弟们 不得了🙃

微软开源了一个能将模型参数压缩到原来的1/20 的工具

使得在普通电脑CPU上跑100B参数模型

推理速度接近人类阅读速度(5~7 tokens/sec)

支持在 ARM 和 x86 CPU 上运行 1 位 LLMs 模型,实现 1.37 倍到 6.17 倍的加速,并大幅降低能耗

ARM CPU:最高快 5 倍
x86 CPU:最高快 6 倍

能耗降低:

最低减少 55%
最高可达 82%

✅ 技术上的意义:

BitNet 推动了“大模型轻量化”的极限边界。

传统大模型(GPT-3、LLaMA)虽然功能强大,但有几个致命问题:

模型太大,动辄几十GB

运行要靠昂贵的 GPU

普通用户根本用不起

而 BitNet 用创新的 1.58-bit 表示方式,把模型压缩到原来的 1/10~1/20 大小,还能保持不错的性能,让模型:

可以在 CPU 上跑

不需要高端硬件

速度也不慢(5~7 tokens/秒)

这就像:过去只能在超级计算机上运行的 GPT,现在普通电脑也能用,加速了AI的普及和移动化。

详细内容:http://t.cn/A6d2vxOG http://t.cn/A6d2v6BY

发布于 安徽