#DeepSeek研究员搞出轻量vLLM##DeepSeek俞星凯1200行代码复刻vLLM#DeepSeek研究员俞星凯搞了个开源项目，仅用不到1200行代码，实现最小化且完全可读的vLLM！【图1】项目名为Nano-vLLM（纳米级-vLLM），有三大特点：- 快速离线推理：推理速度可与vLLM相媲美

#DeepSeek研究员搞出轻量vLLM##DeepSeek俞星凯1200行代码复刻vLLM#

DeepSeek研究员俞星凯搞了个开源项目，仅用不到1200行代码，实现最小化且完全可读的vLLM！【图1】

项目名为Nano-vLLM（纳米级-vLLM），有三大特点：

- 快速离线推理：推理速度可与vLLM相媲美

- 可读性强的代码库：基于不到1200行Python代码实现，简洁干净

- 优化套件：包含前缀缓存、Torch compilation 、CUDA graph等

下面是vLLM与Nano-vLLM在不同硬件和模型配置下的基准测试情况：【图2】vLLM略微领先。

该测试在RTX 4070硬件、Qwen3-0.6B模型环境中，设置了256个序列的总请求数，输入和输出长度均在100-1024个 token间随机采样。

二者输出token量相同，vLLM耗时98.95秒、吞吐量为1353.86 tokens/s，Nano-vLLM耗时101.90秒、吞吐量1314.65tokens/s。

DeepSeek研究员俞星凯，他2021年获得南京大学计算机科学与技术系学士学位，同年又被南京大学免试录取为硕士研究生，在校他同时也是由周志华教授领导的LAMDA团队的成员。

详情点击：http://t.cn/A6eT2FmV