![]()
從 GPT-4o 開啟全能(Omni)交互時代至今,Speech LLM 雖然在擬人化和低延遲上取得了長足進步,但面臨一個令人困擾的現象:當大語言模型(LLM)被賦予 “聽覺” 后,它的智商下降了。
即便是同樣的底層模型,一旦輸入從文本變成語音,其邏輯推理能力(Reasoning)往往會顯著衰退。這種現象被稱為“模態推理鴻溝”(Modality Reasoning Gap)
這個難題并非僅存在于學術界,而是 OpenAI、Google、Meta 等行業巨頭都在試圖跨越的 “天花板”:
- 根據Big Bench Audio評測,以 GPT-4o 為例,在純文本任務(Text-to-Text)的準確率達92%;但一旦切換到端到端語音模式(Speech-to-Speech),其得分跌至66%。這中間26%的巨大跌幅,就是模型引入語音而付出的代價。
- Google Gemini 團隊在技術分享中將其定義為Intelligence Gap;而 Meta 研究員在 NeurIPS 2025 上更是直言這是一種Intelligence Regression,并提出了一個生動的概念Multimodal Tax,即引入音頻等多模態數據往往會 “擠占” 模型用于純推理的能力。
![]()
![]()
為了解決這一核心痛點,香港中文大學(深圳)與微軟團隊聯合提出了TARS(Trajectory Alignment for Reasoning in Speech)。這是一項基于強化學習(RL)的全新對齊框架,它不依賴死記硬背的監督微調,而是通過對齊 “思維軌跡”,成功將語音輸入的推理表現100% 恢復甚至超越了純文本基座水平。
![]()
- 論文題目: Closing the Modality Reasoning Gap for Speech Large Language Models
- 論文鏈接: https://arxiv.org/abs/2601.05543
核心痛點:為什么模型 “聽” 得越多,“想” 得越偏?
目前的語音大模型(Speech LLM)通常采用 “語音編碼器 + 適配器 + LLM” 的三段式架構。理論上,這應該能讓語音輸入無縫借用 LLM 強大的推理大腦。但現實是:引入語音模態后,推理能力出現了斷崖式下跌
此前的研究主要試圖從兩個方向修補這一鴻溝,但都存在缺陷:
1. 輸入端強行對齊(Input Fusion):
試圖讓語音特征在輸入層就長得和文本 Embedding 一樣。但語音天然包含語氣、停頓等富語言信息,與緊湊的文本本質不同。僅依靠輸入對齊這種表面功夫,無法解決深層的表征漂移(Representation Drift)—— 隨著 Transformer 層數加深,語音激發的隱藏狀態(Hidden States)會逐漸偏離文本的思考軌跡(即相同語義純文本輸入時,文本激發的隱藏狀態),導致 “想岔了”。
2. 輸出端死記硬背(SFT / 蒸餾):
這是最主流的做法,即通過監督微調(SFT)利用靜態的 “語音 - 文本” 數據對進行訓練,或者通過知識蒸餾(Distillation)讓文本分支作為 “老師” 來指導語音分支這個 “學生”。這些本質上都屬于 Off-policy(離線策略),試圖強行讓語音分支去模仿文本的 Token 輸出分布。但這有兩個問題:
- 目標不可達: 語音的噪聲和副語言特征決定了其輸出分布不可能和純文本完全一致。
- Exposure Bias: 這種靜態監督無法容錯。推理時只要錯一個 Token,模型就會跌入訓練未見過的狀態,導致后續回復全盤崩潰。
TARS 的核心洞察在于: 既然死記硬背行不通,能不能用強化學習(RL),讓模型自己在 “思考過程” 中去動態對齊文本的軌跡,而不是對齊具體的字?
TARS:用強化學習重塑語音推理軌跡
TARS 是一個基于On-policy RL(具體采用 GRPO)的對齊框架。它巧妙地利用模型自身的文本分支作為 “動態導師”,通過三個關鍵創新,把語音分支的 “腦回路” 掰回來。
![]()
創新一:表征對齊(Representation Alignment)
既然 Gap 和 “表征漂移” 相關,TARS 選擇直接從模型內部開刀。
- 做法: 計算語音作為輸入,推理過程中每一層的隱藏狀態(Hidden States),與同一模型在文本輸入下(文本輸入和語音輸入在語義上完全相同)的隱藏狀態計算余弦相似度,作為表征對齊獎勵。
![]()
- 作用: 這就像給語音分支裝了一個 “導航儀”。它不再只關注結果,而是引導語音分支的每一層思維路徑都時刻緊跟文本分支的軌跡,防止跑偏。
創新二:行為對齊(Behavior Alignment)
為了避免 SFT 的死板,TARS 在輸出端引入了更靈活的對齊標準。
![]()
![]()
- 作用: 解決了 “目標不可達” 的問題。允許語音和文本在措辭上有差異,只要邏輯對、意思對就能拿分。這讓模型在探索中學會了自我修正,而非機械模仿。
創新三:非對稱獎勵與模態歸一化
在 RL 訓練設計上,TARS 針對模態差異做了對應優化:
1.非對稱獎勵(Asymmetric Reward): 文本分支只拿基礎獎勵(保住基本盤),語音分支額外拿對齊獎勵(拼命追趕文本)。
![]()
2.模態特定歸一化(Modality-Specific Normalization): 這一點至關重要。由于語音推理更難,往往得分較低,如果混合歸一化,語音分支會一直收到負梯度。TARS 將兩者分開歸一化,讓語音分支 “自己跟自己比”,保證了持續的優化梯度 —— 即使在所有樣本任務準確率都為 0 的極端困難情況下,對齊獎勵依然能指導模型進步。
![]()
實驗結果:推理能力 100% 復原
團隊在UnifiedQA數據集上訓練,并在MMSUOBQA兩個高難度語音推理榜單上進行了驗證。實驗基于 Qwen2.5-Omni 和 Phi-4-MM 架構。
核心戰績:MRR 突破 100%
![]()
![]()
- 模態恢復率(MRR): TARS 在 7B 模型上達到了100.45%(Table 1 最后一行)。這意味著,語音輸入的推理能力不僅完全填補了引入音頻帶來的坑,甚至略微超過了文本基座的表現。
- 碾壓基線: 相比 SALAD、AlignChat、KD 等 SOTA 方法,TARS 在 Phi-4-MM 上的準確率達到了79.80%(Table 1 最后一行),穩居 7B 規模模型第一,且顯著優于 SFT 和 DPO 基線(Table 2)。
TARS 不是在拆東墻補西墻!
實驗發現,TARS 的對齊并不是 “拆東墻補西墻”。在使用 TARS 訓練后,模型的文本準確率也同步提升(Qwen: +2.39%, Phi: +5.43%)。這證明語音模態學習到的知識,能夠同時增強文本的推理能力。
總結與展望
TARS 的提出標志著語音大模型研究的一個轉折點:
1.范式轉變: 證明了On-policy RL在解決模態對齊問題上優于傳統的 Off-policy(SFT / 蒸餾)方法。
2.軌跡對齊: 提出的 “表征(過程)+ 行為(結果)” 對齊策略,有效消除模態推理鴻溝。
TARS 證明了語音大模型完全可以擁有和純文本模型同等的 “智商”。對于致力于打造全能型 Omni 模型的研究者而言,TARS 提供了一條通往高智商語音交互的可行路徑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.