#IBM-AI课堂# 推理速度一直是影响大语言模型（LLM）体验和成本的关键因素。有没有什么方法，让 LLM 生成文本的过程变得更快，同时又不牺牲输出质量呢？IBM AI 工程师 Isaac Ke，介绍了他们正在研究的新方法：猜测式解码（Speculative Decoding）。大家可以把猜测式解码想象成一个作家和编辑搭档写

#IBM-AI课堂# 推理速度一直是影响大语言模型（LLM）体验和成本的关键因素。有没有什么方法，让 LLM 生成文本的过程变得更快，同时又不牺牲输出质量呢？

IBM AI 工程师 Isaac Ke，介绍了他们正在研究的新方法：猜测式解码（Speculative Decoding）。

大家可以把猜测式解码想象成一个作家和编辑搭档写作的过程。编辑（小模型）会提前写几句话，作家或主编（大模型）随后负责审核和修正，确保最后的文本符合高标准。这种 “起草并验证” 的方式，把本来串行的步骤拆分成并行，大幅提升了整体效率。

传统 LLM 的文本生成流程，是一种自回归的逐步生成。每次模型只能输出下一个词（Token），然后把这个词拼到输入里，继续推理，循环往复。这个过程本质上是单线程的，每生成一个词，都要等大模型跑一遍推理，慢工出细活。虽然稳妥，但效率较低。

猜测式解码的巧妙之处在于，小模型可以一次性 “猜” 出好几个接下来的 Token，然后由大模型并行验证这些猜测。如果小模型的预测靠谱，大模型就直接采纳，从而省下不少时间。只有当小模型的猜测不准，才由大模型重新修正，确保结果依然靠谱。这相当于用更便宜、更快的小模型承担了大部分简单词汇的预测工作，把大模型的算力留给更复杂和关键的部分。

在实际运行中，这种方法一般能带来 2-3 倍的推理加速。比如一次大模型推理，过去最多只能生成一个 Token，而现在借助猜测式解码，可以生成三四个。即使最坏的情况，小模型猜错了第一个 Token，大模型也能及时纠正，不会影响最终的输出质量。这个 “拒绝采样” 的环节起到了兜底作用，保证最终输出质量和全部由大模型生成质量一致。

#AI技术[超话]##大语言模型##猜测式解码##AI创造营# http://t.cn/A6Dmn3rj

发布于上海