张岱樾 26-01-22 19:00
微博认证:AI博主

硬件内存是制约 GenAI 发展的瓶颈。

2018 年至 2025 年期间,Transformer 模型尺寸每 2 年增长约 19 倍,而每个加速器的内存每 2 年仅增长约 1.9 倍。

这种不匹配将我们推入了一个“内存受限”的世界。

“内存墙”给数据中心和边缘人工智能应用带来了诸多挑战。

在数据中心,现有技术主要通过增加GPU计算能力来解决这个问题。而坦白说,在边缘计算领域,目前还没有好的解决方案。

现在瓶颈在于带宽(而不仅仅是容量)。

即使能够设法匹配权重,芯片也无法足够快地将数据从内存传输到计算单元。

过去20年间,峰值计算能力增长了约6万倍,但DRAM带宽仅增长了约100倍,互连带宽也仅增长了约30倍。结果就是:处理器闲置等待数据——典型的“内存墙”。

这对解码器式 LLM 推理造成了特别大的影响,因为它的算术强度(每移动一个字节的 FLOPs 次数)很低。

大型模型(以及它们在训练期间的激活值/优化器状态)无法放入一台设备中。

由于激活函数和优化器状态的存在,训练通常需要比参数多 3-4 倍的内存。

带宽差距:在芯片/GPU之间移动权重、激活值和KV缓存的速度比原始计算消耗的速度要慢。

这些因素共同决定了现代 LLM 的运行时间和成本。
#科技先锋官# #ai创造营#

发布于 广东