大模型推理速度再次被硬件厂商刷新。专做超大芯片的 Cerebras 推出了推理服务，速度方面：Llama 3.1 70B ，每秒 450 个 tokens，Llama 3.1 8B ，每秒 1800 个 tokens。比基于英伟达 GPU 的超大规模云服务快 20 倍，比之前刷榜的 Groq 也要快。成本：Lama 3.1 8B，10 美分/ 百万 tokens ，Lam

大模型推理速度再次被硬件厂商刷新。

专做超大芯片的 Cerebras 推出了推理服务，

速度方面：
Llama 3.1 70B ，每秒 450 个 tokens，
Llama 3.1 8B ，每秒 1800 个 tokens。
比基于英伟达 GPU 的超大规模云服务快 20 倍，比之前刷榜的 Groq 也要快。

成本：Lama 3.1 8B，10 美分/ 百万 tokens ，
Lama 3.1 70B，60 美分/ 百万 tokens 。

同时，Cerebras 还采用 16-bit 精度做推理，而一些公司试图从 16-bit 减少到 8-bit 来克服内存带宽瓶颈，通常不告知用户。

Cerebras还写了一条博客来说明为什么其推理速度很快，链接：http://t.cn/A6RMOZnS，中译见下文：

为什么大语言模型（LLM）的响应像拨号上网加载网页一样，一个字一个字地缓慢出现？原因在于LLM的顺序生成特性，以及其对大量内存和带宽的需求。在LLM中，每生成一个词都必须经过整个模型的处理——所有参数都必须从内存转移到计算过程。生成一个词需要一次处理，生成100个词需要100次处理——由于每个词都依赖于前一个词，因此这一过程无法并行进行。因此，要在一秒钟内生成100个词，意味着模型需要在一秒钟内移动100次，这就需要大量的内存带宽。

以流行的Llama3.1-70B模型为例。该模型有700亿个参数。每个参数是16位的，需要2字节的存储空间。整个模型需要140GB的内存。为了让模型输出一个token，每个参数都必须从内存传输到计算核心，以执行前向推理计算。由于GPU只有大约200MB的片上内存，模型无法存储在片上，每次生成输出token时必须将整个模型传输。

生成一个token需要将140GB的数据从内存移动到计算核心。要以每秒生成10个token的速度，则需要10 * 140 = 1.4 TB/s的内存带宽。H100的内存带宽为3.3 TB/s——足以支持这种较慢的推理速度。要实现实时推理，每秒生成约1000个token则需要140 TB/s的带宽——远远超出了任何GPU服务器或系统的内存带宽。而且，这个问题无法通过简单地串联更多的DGX系统来解决——增加更多的处理器可以提高系统的吞吐量（即更多的查询），但无法加快单个查询的响应时间。

Cerebras如何突破内存带宽瓶颈

Cerebras通过构建世界上最大的芯片并将整个模型存储在片上，解决了内存带宽瓶颈问题。通过我们独特的晶圆级设计，我们能够在单个芯片上集成44GB的SRAM——消除了外部内存和连接外部内存到计算的慢速通道的需求。

WSE-3芯片总共有21PB/s的总内存带宽——是H100的7,000倍。它是唯一一款具有PB级计算能力和PB级内存带宽的AI芯片，使其成为高速推理的近乎理想的设计。

Cerebras推理设计用于处理从数十亿到数万亿参数的模型。当模型超过单个晶圆的内存容量时，我们会在层边界将其拆分，并将其映射到多个CS-3系统中。20B模型可以放入一个CS-3系统上，而70B模型可以在最少四个系统上运行。在接下来的几周内，我们将添加更大的模型，如Llama3-405B和Mistral Large，并在速度和每个token的成本上领先业界。

发布于北京