爱可可-爱生活
26-06-06 11:25 微博认证:AI博主 2025微博新锐新知博主

【大模型落地的真死穴,其实是名气没那么大的KV cache】

吴恩达联手红帽推出了免费新课,教大家怎么低成本、低延迟地部署大模型。

很多人以为部署大模型的瓶颈是显卡不够多。其实根本不是。静态的权重只决定了入门门槛,真正决定线上服务会不会崩溃的,是动态的KV Cache(键值缓存)。一个70B的模型,光加载就要140GB显存,而并发一上,每个用户请求产生的上下文缓存会迅速榨干剩下的显存。

这已经不是AI算法问题,而是经典的操作系统级内存管理问题。

这次课程主打的vLLM和PagedAttention技术,逻辑就像是当年操作系统的虚拟内存,把零散的显存碎片拼起来,直接让显存浪费从60%降到4%以下。

AI竞争的下半场,拼的不是谁的模型参数大,而是谁能在工程层面把成本和延迟压榨到极致。

www.deeplearning.ai/courses/fast-and-efficient-llm-inference-with-vllm

发布于 北京