语音大模型模态推理差距解决方案

[CL]《Closing the Modality Reasoning Gap for Speech Large Language Models》C Wang, H Lu, X Zhang, S Liu... [Microsoft Corporation & The Chinese University of Hong Kong] (2026)

为什么语音大模型的智商总是比文本版低一截。

在语音大模型（Speech LLM）领域，存在一个令人困扰的现象：模态推理差距。即便模型拥有强大的文本推理底座，一旦输入换成语音，其逻辑推理能力就会大幅下滑。这种差距并非源于模型不懂语言，而是因为语音信号在复杂的神经网络层间传递时，逐渐偏离了原本精准的文本表征轨道。

研究发现，这种性能跌落主要源于两个层面的偏差。首先是表征漂移，即语音输入在经过Transformer各层处理时，其隐藏状态与文本输入产生的状态越来越远；其次是行为偏离，导致长链条推理在中途断裂。

为了解决这一痛点，本文提出了TARS（Trajectory Alignment for Reasoning in Speech）框架。这套基于强化学习的方案，核心目标是让语音模态的推理轨迹向文本模态看齐。

TARS的设计精妙之处在于其不对称奖励机制。它不再仅仅盯着最终答案的对错，而是引入了两个密集的对齐信号。表征对齐通过计算层间隐藏状态的余弦相似度，抑制推理过程中的表征漂移；行为对齐则利用外部嵌入模型，确保语音生成的语义逻辑与文本生成的参考答案高度一致。

在训练策略上，TARS采用了GRPO（群组相对策略优化）算法，并创新性地引入了模态特定归一化。这一举措解决了文本模态因天然优势而产生的奖励压制问题，让语音模态能够在自身的基准线上不断进化，最终实现与文本能力的协同增长。

实验数据证明了这一思路的优越性。在MMSU和OBQA等极具挑战性的推理基准测试中，TARS在7B规模的模型上刷新了记录。它不仅几乎完全抹平了模态推理差距，甚至在某些场景下，由于语音模态学到了更稳健的逻辑路径，反哺提升了原有的文本推理表现。

这项研究带给我们最深刻的启发是：真正的模态对齐不应只是结果的模仿，而应是思维路径的共振。当语音能够共享文本那套经过海量训练的逻辑栈时，语音大模型才真正拥有了灵魂。

端到端模型在处理复杂逻辑时，已经开始超越传统的ASR加文本LLM的级联方案。通过直接在语音轨迹上进行推理对齐，我们能够规避语音识别错误带来的连锁反应，实现更纯粹、更高效的智能交互。

arxiv.org/abs/2601.05543

发布于北京