【vLLM:为大型语言模型(LLMs)设计的高吞吐量和内存高效推理与服务引擎,支持多种解码算法和模型,简化了LLMs的部署和使用过程】'SkyworkAI/vllm - A high-throughput and memory-efficient inference and serving engine for LLMs' GitHub: github.com/SkyworkAI/vllm #大型语言模型# #推理与服务# #高吞吐量# #内存高效#
发布于 北京
