#IBM-AI课堂# 推理速度一直是影响大语言模型(LLM)体验和成本的关键因素。有没有什么方法,让 LLM 生成文本的过程变得更快,同时又不牺牲输出质量呢?
IBM AI 工程师 Isaac Ke,介绍了他们正在研究的新方法:猜测式解码(Speculative Decoding)。
大家可以把猜测式解码想象成一个作家和编辑搭档写作的过程。编辑(小模型)会提前写几句话,作家或主编(大模型)随后负责审核和修正,确保最后的文本符合高标准。这种 “起草并验证” 的方式,把本来串行的步骤拆分成并行,大幅提升了整体效率。
传统 LLM 的文本生成流程,是一种自回归的逐步生成。每次模型只能输出下一个词(Token),然后把这个词拼到输入里,继续推理,循环往复。这个过程本质上是单线程的,每生成一个词,都要等大模型跑一遍推理,慢工出细活。虽然稳妥,但效率较低。
猜测式解码的巧妙之处在于,小模型可以一次性 “猜” 出好几个接下来的 Token,然后由大模型并行验证这些猜测。如果小模型的预测靠谱,大模型就直接采纳,从而省下不少时间。只有当小模型的猜测不准,才由大模型重新修正,确保结果依然靠谱。这相当于用更便宜、更快的小模型承担了大部分简单词汇的预测工作,把大模型的算力留给更复杂和关键的部分。
在实际运行中,这种方法一般能带来 2-3 倍的推理加速。比如一次大模型推理,过去最多只能生成一个 Token,而现在借助猜测式解码,可以生成三四个。即使最坏的情况,小模型猜错了第一个 Token,大模型也能及时纠正,不会影响最终的输出质量。这个 “拒绝采样” 的环节起到了兜底作用,保证最终输出质量和全部由大模型生成质量一致。
#AI技术[超话]##大语言模型##猜测式解码##AI创造营# http://t.cn/A6Dmn3rj
发布于 上海
