爱可可-爱生活
26-01-13 05:42 微博认证:AI博主 2025微博新锐新知博主

[CL]《Closing the Modality Reasoning Gap for Speech Large Language Models》C Wang, H Lu, X Zhang, S Liu... [Microsoft Corporation & The Chinese University of Hong Kong] (2026)

为什么语音大模型的智商总是比文本版低一截。

在语音大模型(Speech LLM)领域,存在一个令人困扰的现象:模态推理差距。即便模型拥有强大的文本推理底座,一旦输入换成语音,其逻辑推理能力就会大幅下滑。这种差距并非源于模型不懂语言,而是因为语音信号在复杂的神经网络层间传递时,逐渐偏离了原本精准的文本表征轨道。

研究发现,这种性能跌落主要源于两个层面的偏差。首先是表征漂移,即语音输入在经过Transformer各层处理时,其隐藏状态与文本输入产生的状态越来越远;其次是行为偏离,导致长链条推理在中途断裂。

为了解决这一痛点,本文提出了TARS(Trajectory Alignment for Reasoning in Speech)框架。这套基于强化学习的方案,核心目标是让语音模态的推理轨迹向文本模态看齐。

TARS的设计精妙之处在于其不对称奖励机制。它不再仅仅盯着最终答案的对错,而是引入了两个密集的对齐信号。表征对齐通过计算层间隐藏状态的余弦相似度,抑制推理过程中的表征漂移;行为对齐则利用外部嵌入模型,确保语音生成的语义逻辑与文本生成的参考答案高度一致。

在训练策略上,TARS采用了GRPO(群组相对策略优化)算法,并创新性地引入了模态特定归一化。这一举措解决了文本模态因天然优势而产生的奖励压制问题,让语音模态能够在自身的基准线上不断进化,最终实现与文本能力的协同增长。

实验数据证明了这一思路的优越性。在MMSU和OBQA等极具挑战性的推理基准测试中,TARS在7B规模的模型上刷新了记录。它不仅几乎完全抹平了模态推理差距,甚至在某些场景下,由于语音模态学到了更稳健的逻辑路径,反哺提升了原有的文本推理表现。

这项研究带给我们最深刻的启发是:真正的模态对齐不应只是结果的模仿,而应是思维路径的共振。当语音能够共享文本那套经过海量训练的逻辑栈时,语音大模型才真正拥有了灵魂。

端到端模型在处理复杂逻辑时,已经开始超越传统的ASR加文本LLM的级联方案。通过直接在语音轨迹上进行推理对齐,我们能够规避语音识别错误带来的连锁反应,实现更纯粹、更高效的智能交互。

arxiv.org/abs/2601.05543

发布于 北京