兄弟们 不得了🙃
微软开源了一个能将模型参数压缩到原来的1/20 的工具
使得在普通电脑CPU上跑100B参数模型
推理速度接近人类阅读速度(5~7 tokens/sec)
支持在 ARM 和 x86 CPU 上运行 1 位 LLMs 模型,实现 1.37 倍到 6.17 倍的加速,并大幅降低能耗
ARM CPU:最高快 5 倍
x86 CPU:最高快 6 倍
能耗降低:
最低减少 55%
最高可达 82%
✅ 技术上的意义:
BitNet 推动了“大模型轻量化”的极限边界。
传统大模型(GPT-3、LLaMA)虽然功能强大,但有几个致命问题:
模型太大,动辄几十GB
运行要靠昂贵的 GPU
普通用户根本用不起
而 BitNet 用创新的 1.58-bit 表示方式,把模型压缩到原来的 1/10~1/20 大小,还能保持不错的性能,让模型:
可以在 CPU 上跑
不需要高端硬件
速度也不慢(5~7 tokens/秒)
这就像:过去只能在超级计算机上运行的 GPT,现在普通电脑也能用,加速了AI的普及和移动化。
详细内容:http://t.cn/A6d2vxOG http://t.cn/A6d2v6BY
发布于 安徽
