i陆三金 24-08-28 09:27
微博认证:AI博主

大模型推理速度再次被硬件厂商刷新。

专做超大芯片的 Cerebras 推出了推理服务,

速度方面:
Llama 3.1 70B ,每秒 450 个 tokens,
Llama 3.1 8B ,每秒 1800 个 tokens。
比基于英伟达 GPU 的超大规模云服务快 20 倍,比之前刷榜的 Groq 也要快。

成本:Lama 3.1 8B,10 美分/ 百万 tokens ,
Lama 3.1 70B,60 美分/ 百万 tokens 。

同时,Cerebras 还采用 16-bit 精度做推理,而一些公司试图从 16-bit 减少到 8-bit 来克服内存带宽瓶颈,通常不告知用户。

Cerebras还写了一条博客来说明为什么其推理速度很快,链接:http://t.cn/A6RMOZnS,中译见下文:

为什么大语言模型(LLM)的响应像拨号上网加载网页一样,一个字一个字地缓慢出现?原因在于LLM的顺序生成特性,以及其对大量内存和带宽的需求。在LLM中,每生成一个词都必须经过整个模型的处理——所有参数都必须从内存转移到计算过程。生成一个词需要一次处理,生成100个词需要100次处理——由于每个词都依赖于前一个词,因此这一过程无法并行进行。因此,要在一秒钟内生成100个词,意味着模型需要在一秒钟内移动100次,这就需要大量的内存带宽。

以流行的Llama3.1-70B模型为例。该模型有700亿个参数。每个参数是16位的,需要2字节的存储空间。整个模型需要140GB的内存。为了让模型输出一个token,每个参数都必须从内存传输到计算核心,以执行前向推理计算。由于GPU只有大约200MB的片上内存,模型无法存储在片上,每次生成输出token时必须将整个模型传输。

生成一个token需要将140GB的数据从内存移动到计算核心。要以每秒生成10个token的速度,则需要10 * 140 = 1.4 TB/s的内存带宽。H100的内存带宽为3.3 TB/s——足以支持这种较慢的推理速度。要实现实时推理,每秒生成约1000个token则需要140 TB/s的带宽——远远超出了任何GPU服务器或系统的内存带宽。而且,这个问题无法通过简单地串联更多的DGX系统来解决——增加更多的处理器可以提高系统的吞吐量(即更多的查询),但无法加快单个查询的响应时间。

Cerebras如何突破内存带宽瓶颈

Cerebras通过构建世界上最大的芯片并将整个模型存储在片上,解决了内存带宽瓶颈问题。通过我们独特的晶圆级设计,我们能够在单个芯片上集成44GB的SRAM——消除了外部内存和连接外部内存到计算的慢速通道的需求。

WSE-3芯片总共有21PB/s的总内存带宽——是H100的7,000倍。它是唯一一款具有PB级计算能力和PB级内存带宽的AI芯片,使其成为高速推理的近乎理想的设计。

Cerebras推理设计用于处理从数十亿到数万亿参数的模型。当模型超过单个晶圆的内存容量时,我们会在层边界将其拆分,并将其映射到多个CS-3系统中。20B模型可以放入一个CS-3系统上,而70B模型可以在最少四个系统上运行。在接下来的几周内,我们将添加更大的模型,如Llama3-405B和Mistral Large,并在速度和每个token的成本上领先业界。

发布于 北京