ServeGen:解锁真实LLM服务工作负载的密钥
⚠ 大语言模型(LLMs)的快速发展催生了许多全新的应用场景,MaaS(Model as a Service)已成为云场景中日益重要的一项服务。然而当前对真实世界 LLM 服务工作负载的理解仍然有限,现有的分析往往因规模和范围不足而无法完整捕捉复杂的工作负载特征。
🌟 ServeGen 基于阿里云百炼平台推理服务的生产环境,详细刻画了各种语言模型和新兴多模态、推理模型的服务工作负载,揭示了到达模式、输入/输出长度、多轮对话等一系列关键特征。
💡 在此基础上,我们提出了 ServeGen 框架,它能够生成最大限度反映实际工况的负载。相较于传统负载生成方法,ServeGen 在精准度上显示出显著优势。我们希望 ServeGen 能成为前沿研究与生产现实之间的数据驱动桥梁,帮助设计和部署新的 LLM 服务系统。更多分析结果请参见我们的论文和开源项目。
ꔷ 论文地址:http://t.cn/A6e9xApT
ꔷ 代码开源地址:http://t.cn/A6e9xApY
#通义#
发布于 浙江
