蚁工厂 25-07-27 11:50
微博认证:科技博主

系列教程 “从零实现 vLLM”
http://t.cn/A6FyRh6f
“我一直都喜欢通过代码学习各种技术,特别是各种从零开始实现 XX 的。为了学习大模型推理引擎的技术,我找到了 DeepSeek 研究员俞星凯仅用不到1200行代码实现的 nano-vllm。我会把我的学习过程记录下来,方便大家参考。
要学习这么大一个技术的课题,需要从什么地方下手呢?下面是我学习计划:
✨构建 Transformer 模型: 我们首先要有一个“能运行”的模型。这部分将专注于用 Python 和 PyTorch 实现构成大语言模型(以 Qwen3 为例)的核心模块。
✨实现朴素推理: 有了模型,我们将实现一个最基础的推理流程,支持单个请求的文本生成,并深入理解其中最重要的 KV Cache 机制。
✨构建高性能推理引擎: 这是 vLLM 的精髓。我们将引入 vLLM 的核心思想,如 PagedAttention、请求调度、内存管理等,将我们的朴素实现改造成一个支持高吞吐、低延迟的现代化推理引擎。”
目前有两篇,并行词嵌入 VocabParallelEmbedding、如何实现张量并行
#AI创造营# #微博兴趣创作计划#

发布于 山东