爱可可-爱生活
25-08-13 07:50 微博认证:AI博主 2025微博新锐新知博主

Meta团队最新研究揭秘Llama模型规模化推理提速关键——高效的EAGLE投机解码技术实现生产级应用。核心亮点如下:

• 投机解码本质:利用轻量级草稿模型多步预测并由主模型验证,减少主模型的自回归调用次数,显著提升解码速度,但带来更多浮点运算(FLOPs)挑战。

• 训练优化:
– 在线蒸馏:草稿模型通过拟合主模型的隐藏状态与logits,实现高质量近似。
– 延长训练迭代至48k次,提升草稿模型tokens accepted per call(TPC),优化采样效率。
– 采用3层密集FFN草稿模型,兼顾参数规模与性能;发现密集FFN优于MoE,且iRoPE对草稿模型影响不大。

• 推理优化:
– 创新树形注意力机制拆分为前缀无掩码和后缀带掩码两阶段计算,极大提升GPU执行效率。
– 多轮投机采样结合PyTorch-2编译、跨张量并行采样和贪婪解码策略,减少CPU-GPU同步开销,实现1.5×采样速度提升。
– 生产环境采用解耦预填充与解码部署,重构解码周期,异步并行CPU/GPU任务,GPU利用率达94%,TTIT(单token解码时间)降低8%-12%。
– 静态树结构调度器根据批量大小动态选择最优的树形草稿结构,兼顾计算成本和速度提升。
– 支持INT4量化草稿模型,实现推理速度提升同时保持较高TPC。
– 兼容Llama4的iRoPE局部注意力,结合树形注意力适配方案,保证高效推理。

• 性能数据:
– Llama4 Maverick在8块NVIDIA H100 GPU上,单token解码时间约4ms,较此前最佳提升约10%。
– 大批量(batch size)环境下,EAGLE投机解码速度提升幅度达1.4×至2.0×。
– 不同模型和序列长度下,速度提升表现各异,部分小模型在大批量时反而表现更优。

这套综合训练与推理优化方案在生产环境中实现了前所未有的Llama模型推理效率,突破了传统投机解码在大规模批量处理中的性能瓶颈,具备显著的实用价值和推广潜力。

详见论文全文👉 arxiv.org/abs/2508.08192
#大规模语言模型# #推理加速# #投机解码# #Llama# #MetaAI# #GPU优化#

发布于 北京