<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型聽懂語音卻變笨?港中深與微軟聯合解決語音大模型降智問題

      0
      分享至



      從 GPT-4o 開啟全能(Omni)交互時代至今,Speech LLM 雖然在擬人化和低延遲上取得了長足進步,但面臨一個令人困擾的現象:當大語言模型(LLM)被賦予 “聽覺” 后,它的智商下降了。

      即便是同樣的底層模型,一旦輸入從文本變成語音,其邏輯推理能力(Reasoning)往往會顯著衰退。這種現象被稱為“模態推理鴻溝”(Modality Reasoning Gap)

      這個難題并非僅存在于學術界,而是 OpenAI、Google、Meta 等行業巨頭都在試圖跨越的 “天花板”:

      • 根據Big Bench Audio評測,以 GPT-4o 為例,在純文本任務(Text-to-Text)的準確率達92%;但一旦切換到端到端語音模式(Speech-to-Speech),其得分跌至66%。這中間26%的巨大跌幅,就是模型引入語音而付出的代價。
      • Google Gemini 團隊在技術分享中將其定義為Intelligence Gap;而 Meta 研究員在 NeurIPS 2025 上更是直言這是一種Intelligence Regression,并提出了一個生動的概念Multimodal Tax,即引入音頻等多模態數據往往會 “擠占” 模型用于純推理的能力。





      為了解決這一核心痛點,香港中文大學(深圳)與微軟團隊聯合提出了TARS(Trajectory Alignment for Reasoning in Speech)。這是一項基于強化學習(RL)的全新對齊框架,它不依賴死記硬背的監督微調,而是通過對齊 “思維軌跡”,成功將語音輸入的推理表現100% 恢復甚至超越了純文本基座水平。



      • 論文題目: Closing the Modality Reasoning Gap for Speech Large Language Models
      • 論文鏈接: https://arxiv.org/abs/2601.05543

      核心痛點:為什么模型 “聽” 得越多,“想” 得越偏?

      目前的語音大模型(Speech LLM)通常采用 “語音編碼器 + 適配器 + LLM” 的三段式架構。理論上,這應該能讓語音輸入無縫借用 LLM 強大的推理大腦。但現實是:引入語音模態后,推理能力出現了斷崖式下跌

      此前的研究主要試圖從兩個方向修補這一鴻溝,但都存在缺陷:

      1. 輸入端強行對齊(Input Fusion):

      試圖讓語音特征在輸入層就長得和文本 Embedding 一樣。但語音天然包含語氣、停頓等富語言信息,與緊湊的文本本質不同。僅依靠輸入對齊這種表面功夫,無法解決深層的表征漂移(Representation Drift)—— 隨著 Transformer 層數加深,語音激發的隱藏狀態(Hidden States)會逐漸偏離文本的思考軌跡(即相同語義純文本輸入時,文本激發的隱藏狀態),導致 “想岔了”。

      2. 輸出端死記硬背(SFT / 蒸餾):

      這是最主流的做法,即通過監督微調(SFT)利用靜態的 “語音 - 文本” 數據對進行訓練,或者通過知識蒸餾(Distillation)讓文本分支作為 “老師” 來指導語音分支這個 “學生”。這些本質上都屬于 Off-policy(離線策略),試圖強行讓語音分支去模仿文本的 Token 輸出分布。但這有兩個問題:

      • 目標不可達: 語音的噪聲和副語言特征決定了其輸出分布不可能和純文本完全一致。
      • Exposure Bias: 這種靜態監督無法容錯。推理時只要錯一個 Token,模型就會跌入訓練未見過的狀態,導致后續回復全盤崩潰。

      TARS 的核心洞察在于: 既然死記硬背行不通,能不能用強化學習(RL),讓模型自己在 “思考過程” 中去動態對齊文本的軌跡,而不是對齊具體的字?

      TARS:用強化學習重塑語音推理軌跡

      TARS 是一個基于On-policy RL(具體采用 GRPO)的對齊框架。它巧妙地利用模型自身的文本分支作為 “動態導師”,通過三個關鍵創新,把語音分支的 “腦回路” 掰回來。



      創新一:表征對齊(Representation Alignment)

      既然 Gap 和 “表征漂移” 相關,TARS 選擇直接從模型內部開刀。

      • 做法: 計算語音作為輸入,推理過程中每一層的隱藏狀態(Hidden States),與同一模型在文本輸入下(文本輸入和語音輸入在語義上完全相同)的隱藏狀態計算余弦相似度,作為表征對齊獎勵。



      • 作用: 這就像給語音分支裝了一個 “導航儀”。它不再只關注結果,而是引導語音分支的每一層思維路徑都時刻緊跟文本分支的軌跡,防止跑偏。

      創新二:行為對齊(Behavior Alignment)

      為了避免 SFT 的死板,TARS 在輸出端引入了更靈活的對齊標準。





      • 作用: 解決了 “目標不可達” 的問題。允許語音和文本在措辭上有差異,只要邏輯對、意思對就能拿分。這讓模型在探索中學會了自我修正,而非機械模仿。

      創新三:非對稱獎勵與模態歸一化

      在 RL 訓練設計上,TARS 針對模態差異做了對應優化:

      1.非對稱獎勵(Asymmetric Reward): 文本分支只拿基礎獎勵(保住基本盤),語音分支額外拿對齊獎勵(拼命追趕文本)。



      2.模態特定歸一化(Modality-Specific Normalization): 這一點至關重要。由于語音推理更難,往往得分較低,如果混合歸一化,語音分支會一直收到負梯度。TARS 將兩者分開歸一化,讓語音分支 “自己跟自己比”,保證了持續的優化梯度 —— 即使在所有樣本任務準確率都為 0 的極端困難情況下,對齊獎勵依然能指導模型進步。



      實驗結果:推理能力 100% 復原

      團隊在UnifiedQA數據集上訓練,并在MMSUOBQA兩個高難度語音推理榜單上進行了驗證。實驗基于 Qwen2.5-Omni 和 Phi-4-MM 架構。

      核心戰績:MRR 突破 100%





      • 模態恢復率(MRR): TARS 在 7B 模型上達到了100.45%(Table 1 最后一行)。這意味著,語音輸入的推理能力不僅完全填補了引入音頻帶來的坑,甚至略微超過了文本基座的表現。
      • 碾壓基線: 相比 SALAD、AlignChat、KD 等 SOTA 方法,TARS 在 Phi-4-MM 上的準確率達到了79.80%(Table 1 最后一行),穩居 7B 規模模型第一,且顯著優于 SFT 和 DPO 基線(Table 2)。

      TARS 不是在拆東墻補西墻!

      實驗發現,TARS 的對齊并不是 “拆東墻補西墻”。在使用 TARS 訓練后,模型的文本準確率也同步提升(Qwen: +2.39%, Phi: +5.43%)。這證明語音模態學習到的知識,能夠同時增強文本的推理能力。

      總結與展望

      TARS 的提出標志著語音大模型研究的一個轉折點:

      1.范式轉變: 證明了On-policy RL在解決模態對齊問題上優于傳統的 Off-policy(SFT / 蒸餾)方法。

      2.軌跡對齊: 提出的 “表征(過程)+ 行為(結果)” 對齊策略,有效消除模態推理鴻溝。

      TARS 證明了語音大模型完全可以擁有和純文本模型同等的 “智商”。對于致力于打造全能型 Omni 模型的研究者而言,TARS 提供了一條通往高智商語音交互的可行路徑。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張碧晨成都演出褲腰滑落,觀眾拍圖上熱搜,她改穿連體衣沒說話

      張碧晨成都演出褲腰滑落,觀眾拍圖上熱搜,她改穿連體衣沒說話

      阿廢冷眼觀察所
      2026-01-21 13:20:58
      您有洗屁股的習慣嗎?提醒:天天洗肛門的人,能收獲4個驚人好處

      您有洗屁股的習慣嗎?提醒:天天洗肛門的人,能收獲4個驚人好處

      39健康網
      2025-12-13 20:50:34
      事態已超出美國掌控:德聯邦法院出調查結果,北溪爆炸案真相來了

      事態已超出美國掌控:德聯邦法院出調查結果,北溪爆炸案真相來了

      賈文彬的史書
      2026-01-21 10:08:22
      64歲劉德華攙扶,75歲譚詠麟唱歌!半個香港娛樂圈給94歲男星祝壽

      64歲劉德華攙扶,75歲譚詠麟唱歌!半個香港娛樂圈給94歲男星祝壽

      素衣讀史
      2026-01-21 16:19:41
      31省份去年人均可支配收入公布

      31省份去年人均可支配收入公布

      第一財經資訊
      2026-01-22 12:36:10
      如果考研沒考上,那備考這一年的意義是什么?看完網友回答,淚目了

      如果考研沒考上,那備考這一年的意義是什么?看完網友回答,淚目了

      夜深愛雜談
      2026-01-22 21:07:58
      高盛將2026年12月黃金價格預期上調至每盎司5400美元

      高盛將2026年12月黃金價格預期上調至每盎司5400美元

      財聯社
      2026-01-22 11:02:05
      李湘被質疑利用王詩齡洗錢,其畫成為她工具,與大和尚黑歷史被挖

      李湘被質疑利用王詩齡洗錢,其畫成為她工具,與大和尚黑歷史被挖

      花哥扒娛樂
      2026-01-19 20:15:26
      老外們都想當中國人?怎么回事?”

      老外們都想當中國人?怎么回事?”

      喀秋莎大世界
      2026-01-22 21:17:04
      日本迎來史上最多外國游客,中國游客卻在12月大幅消失了!

      日本迎來史上最多外國游客,中國游客卻在12月大幅消失了!

      日本物語
      2026-01-21 20:51:33
      重罰!偷稅、背人命債,被官方徹查后首露面的閆學晶迎來最終結局

      重罰!偷稅、背人命債,被官方徹查后首露面的閆學晶迎來最終結局

      流史歲月
      2026-01-22 10:06:40
      和尚寫了一首詠梅詩,大詩人隨手給改了一個字,便成詠梅千古名作

      和尚寫了一首詠梅詩,大詩人隨手給改了一個字,便成詠梅千古名作

      長風文史
      2026-01-13 11:45:24
      王楚然超級白嫩美腿太美了

      王楚然超級白嫩美腿太美了

      可樂談情感
      2026-01-18 11:08:58
      林徽因落選的國徽方案,網友看后感嘆:審美確實一絕,但真不合適

      林徽因落選的國徽方案,網友看后感嘆:審美確實一絕,但真不合適

      抽象派大師
      2026-01-03 02:13:54
      旺旺集團副總裁蔡旺家喜提極氪009

      旺旺集團副總裁蔡旺家喜提極氪009

      鞭牛士
      2026-01-22 17:11:07
      反超廣東,蘇超立功,2025年江蘇社零規模首次位居全國第一

      反超廣東,蘇超立功,2025年江蘇社零規模首次位居全國第一

      金卡讀城
      2026-01-22 07:57:49
      夫妻都是中國人,生下的孩子卻金發碧眼,3次鑒定后女子坦白一切

      夫妻都是中國人,生下的孩子卻金發碧眼,3次鑒定后女子坦白一切

      五元講堂
      2024-12-03 11:30:30
      一幼兒園教師被曝持續扇孩子耳光

      一幼兒園教師被曝持續扇孩子耳光

      蓬勃新聞
      2026-01-22 20:37:21
      人民日報評西貝:3萬差評喊著要答案!消費者最關心的3件事沒人答

      人民日報評西貝:3萬差評喊著要答案!消費者最關心的3件事沒人答

      椰青美食分享
      2026-01-22 15:14:51
      山東男籃官宣新外援!身高2米12,NBA落選秀,蓋帽王

      山東男籃官宣新外援!身高2米12,NBA落選秀,蓋帽王

      籃球大陸
      2026-01-22 19:16:19
      2026-01-22 21:59:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12171文章數 142547關注度
      往期回顧 全部

      科技要聞

      幾千億只是開胃菜,AI基建還得再砸幾萬億

      頭條要聞

      北約稱將確保中俄不在格陵蘭島有軍事立足點 中方回應

      頭條要聞

      北約稱將確保中俄不在格陵蘭島有軍事立足點 中方回應

      體育要聞

      跑個步而已,他們在燃什么?

      娛樂要聞

      車銀優賺800億 涉嫌逃稅200億!

      財經要聞

      西貝拿到“救命錢”,然后呢

      汽車要聞

      配備多塊娛樂屏 極氪8X內飾曝光

      態度原創

      房產
      家居
      親子
      教育
      數碼

      房產要聞

      開年王炸!四重政策紅利加碼,廣州置業窗口期邁入倒計時!

      家居要聞

      法式風情 南洋中古居

      親子要聞

      讓娃更快適應幼兒園 記住這三點就夠了

      教育要聞

      清華大學:兩名博士生擬被退學

      數碼要聞

      分形工藝上架Pop 2 Air系列機箱,649元起

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 蜜臀av性久久久久蜜臀aⅴ麻豆| 中文字幕亚洲区| 超碰成人网| 亚洲制服丝袜在线观看| 人妻体验按摩到忍不住哀求继续| 色综合久久久久无码专区| 日韩新无码精品毛片| 亚洲?欧美?人妻| 国模雨珍浓密毛大尺度150p | 永久免费精品性爱网站| 国产精品美女久久久久久麻豆| 国模吧双双大尺度炮交gogo| 国产成人精品一区二区秒拍1o| 亚洲精品系列| 超碰91在线| 理论片午午伦夜理片久久| 亚洲av无码一区二区三区网站 | 水蜜桃自拍视频在线观看| 夜夜干影院| 久久香蕉国产线看观看精品yw| 69亚洲精品| 亚洲高清aⅴ日本欧美视频| 欧美影院成年免费版| 亚洲成人影片| 亚洲精品乱码久久久久久不卡| 国产资源在线视频| 一区二区水蜜桃| 亚洲亚洲人成综合网络| 久久毛片ddd| 精品少妇人妻AV无码久久| 欧美亚洲香蕉| 亚洲第一av网站| 日韩成人社区| 亚州成人在线| 美女内射视频WWW网站午夜| 一本加勒比hezyo无码专区 | 久久天天躁狠狠躁夜夜| 最新国产精品拍自在线播放| 日本经典中文字幕人妻| 捆绑白丝粉色jk震动捧喷白浆| 潮喷失禁大喷水aⅴ无码|