GPU显存优化方案解析

每生成1个 Token(一个词),GPU都要把整个过去的对话历史(即KV Cache)从显存里读一遍。随着对话变长， KV Cache的体积会线性膨胀。这个"读一遍"的过程极其消耗带宽。我们希望AI可以记住跟它进行的每一次对话，现在的做法是把 KV Cache 放在HBM里(因为它够快)，但HBM又贵，容量又小，前一代的解决方案是利用 NVLink-C2C 把 Grace CPU 的大内存(LPDDR5X)当成GPU的扩展显存用，这个不够用了，第二个方法是数据溢出后，通过"南北向网络"(North-South Network)去读取远端的存储服务器，这个问题是太慢了，网络带宽被挤爆，延迟无法接受。

所以，解决方案为把存储搬到机架里，贴着GPU放(如下图3)，并用BlueField-4来管理，不再去远端的存储服务器读数据，BlueField-4 在这里不仅是 DPU(数据处理器)，它也变成了一个专用的KV Cache管理器，每个GPU多16TB。

by国君电子

发布于北京