量子位 25-06-13 16:50
微博认证:量子位官方微博

#DeepSeek研究员搞出轻量vLLM##DeepSeek俞星凯1200行代码复刻vLLM#

DeepSeek研究员俞星凯搞了个开源项目,仅用不到1200行代码,实现最小化且完全可读的vLLM!【图1】

项目名为Nano-vLLM(纳米级-vLLM),有三大特点:

- 快速离线推理:推理速度可与vLLM相媲美

- 可读性强的代码库:基于不到1200行Python代码实现,简洁干净

- 优化套件:包含前缀缓存、Torch compilation 、CUDA graph等

下面是vLLM与Nano-vLLM在不同硬件和模型配置下的基准测试情况:【图2】vLLM略微领先。

该测试在RTX 4070硬件、Qwen3-0.6B模型环境中,设置了256个序列的总请求数,输入和输出长度均在100-1024个 token间随机采样。

二者输出token量相同,vLLM耗时98.95秒、吞吐量为1353.86 tokens/s,Nano-vLLM耗时101.90秒、吞吐量1314.65tokens/s。

DeepSeek研究员俞星凯,他2021年获得南京大学计算机科学与技术系学士学位,同年又被南京大学免试录取为硕士研究生,在校他同时也是由周志华教授领导的LAMDA团队的成员。

详情点击:http://t.cn/A6eT2FmV