Meta AI 重新介绍了一下他们的新论文,通过一次预测多个词汇来加速 LLM 的训练。#ai#
通常语言模型都是根据已知词汇预测下一个词。而这篇论文提出每次预测接下来的多个词,而不仅仅是一个词。
这种方法可以在不增加训练时间的情况下,提高代码和自然语言模型在下游任务上的能力。对于规模更大的模型,这种改进效果更加明显。
用4词预测训练的模型在推理时最多可以提速3倍,即使在处理大批量数据时也是如此。
论文地址:http://t.cn/A6TsJBs5
发布于 北京
