Meta 的第一个开源多模态语言模型居然是文本、语音多模态，Meta Spirit LM。传统由 LLM 构建的语音管道中，语音首先通过自动语音识别（ASR）转录为文本，然后由 LLM 生成文本，最终通过文本转语音（TTS）技术将其转换回语音，但这些方法损害了语音的表达能力。Meta Spirit LM 采用了一种词级交错训

Meta 的第一个开源多模态语言模型居然是文本、语音多模态，Meta Spirit LM。

传统由 LLM 构建的语音管道中，语音首先通过自动语音识别（ASR）转录为文本，然后由 LLM 生成文本，最终通过文本转语音（TTS）技术将其转换回语音，但这些方法损害了语音的表达能力。

Meta Spirit LM 采用了一种词级交错训练方法，使用语音和文本数据集，能够实现跨模态生成。Meta 开发了两个版本的 Spirit LM，以展示文本模型的生成语义能力和语音模型的表现力。Spirit LM Base 使用音素 Token 对语音进行建模，而 Spirit LM Expressive 则使用音高和风格 Token 来捕捉语气信息，例如兴奋、愤怒或惊讶等情绪，并生成反映该语气的语音。

Spirit LM 让人们能够生成更自然的语音，并且它具有跨模态学习新任务的能力，例如自动语音识别、文本转语音和语音分类。

另外，Meta FAIR 还分享了新研究、模型和数据集，包括 SAM 2.1 等，链接：http://t.cn/A6EFrDwK

发布于北京