硬件内存制约GenAI发展

硬件内存是制约 GenAI 发展的瓶颈。

2018 年至 2025 年期间，Transformer 模型尺寸每 2 年增长约 19 倍，而每个加速器的内存每 2 年仅增长约 1.9 倍。

这种不匹配将我们推入了一个“内存受限”的世界。

“内存墙”给数据中心和边缘人工智能应用带来了诸多挑战。

在数据中心，现有技术主要通过增加GPU计算能力来解决这个问题。而坦白说，在边缘计算领域，目前还没有好的解决方案。

现在瓶颈在于带宽（而不仅仅是容量）。

即使能够设法匹配权重，芯片也无法足够快地将数据从内存传输到计算单元。

过去20年间，峰值计算能力增长了约6万倍，但DRAM带宽仅增长了约100倍，互连带宽也仅增长了约30倍。结果就是：处理器闲置等待数据——典型的“内存墙”。

这对解码器式 LLM 推理造成了特别大的影响，因为它的算术强度（每移动一个字节的 FLOPs 次数）很低。

大型模型（以及它们在训练期间的激活值/优化器状态）无法放入一台设备中。

由于激活函数和优化器状态的存在，训练通常需要比参数多 3-4 倍的内存。

带宽差距：在芯片/GPU之间移动权重、激活值和KV缓存的速度比原始计算消耗的速度要慢。

这些因素共同决定了现代 LLM 的运行时间和成本。
#科技先锋官# #ai创造营#

发布于广东