吴恩达红帽推免费课

【大模型落地的真死穴，其实是名气没那么大的KV cache】

吴恩达联手红帽推出了免费新课，教大家怎么低成本、低延迟地部署大模型。

很多人以为部署大模型的瓶颈是显卡不够多。其实根本不是。静态的权重只决定了入门门槛，真正决定线上服务会不会崩溃的，是动态的KV Cache（键值缓存）。一个70B的模型，光加载就要140GB显存，而并发一上，每个用户请求产生的上下文缓存会迅速榨干剩下的显存。

这已经不是AI算法问题，而是经典的操作系统级内存管理问题。

这次课程主打的vLLM和PagedAttention技术，逻辑就像是当年操作系统的虚拟内存，把零散的显存碎片拼起来，直接让显存浪费从60%降到4%以下。

AI竞争的下半场，拼的不是谁的模型参数大，而是谁能在工程层面把成本和延迟压榨到极致。

www.deeplearning.ai/courses/fast-and-efficient-llm-inference-with-vllm

发布于北京