每生成1个 Token(一个词),GPU都要把整个过去的对话历史(即KV Cache)从显存里读一遍。随着对话变长, KV Cache的体积会线性膨胀。这个"读一遍"的过程极其消耗带宽。我们希望AI可以记住跟它进行的每一次对话,现在的做法是把 KV Cache 放在HBM里(因为它够快),但HBM又贵,容量又小,前一代的解决方案是利用 NVLink-C2C 把 Grace CPU 的大内存(LPDDR5X)当成GPU的扩展显存用,这个不够用了,第二个方法是数据溢出后,通过"南北向网络"(North-South Network)去读取远端的存储服务器,这个问题是太慢了,网络带宽被挤爆,延迟无法接受。
所以,解决方案为把存储搬到机架里,贴着GPU放(如下图3),并用BlueField-4来管理,不再去远端的存储服务器读数据,BlueField-4 在这里不仅是 DPU(数据处理器),它也变成了一个专用的KV Cache管理器,每个GPU多16TB。
by国君电子
发布于 北京
