<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      大模型聽懂語音卻變笨?港中深與微軟聯(lián)合解決語音大模型降智問題

      0
      分享至



      從 GPT-4o 開啟全能(Omni)交互時(shí)代至今,Speech LLM 雖然在擬人化和低延遲上取得了長足進(jìn)步,但面臨一個(gè)令人困擾的現(xiàn)象:當(dāng)大語言模型(LLM)被賦予 “聽覺” 后,它的智商下降了。

      即便是同樣的底層模型,一旦輸入從文本變成語音,其邏輯推理能力(Reasoning)往往會(huì)顯著衰退。這種現(xiàn)象被稱為“模態(tài)推理鴻溝”(Modality Reasoning Gap)

      這個(gè)難題并非僅存在于學(xué)術(shù)界,而是 OpenAI、Google、Meta 等行業(yè)巨頭都在試圖跨越的 “天花板”:

      • 根據(jù)Big Bench Audio評(píng)測,以 GPT-4o 為例,在純文本任務(wù)(Text-to-Text)的準(zhǔn)確率達(dá)92%;但一旦切換到端到端語音模式(Speech-to-Speech),其得分跌至66%。這中間26%的巨大跌幅,就是模型引入語音而付出的代價(jià)。
      • Google Gemini 團(tuán)隊(duì)在技術(shù)分享中將其定義為Intelligence Gap;而 Meta 研究員在 NeurIPS 2025 上更是直言這是一種Intelligence Regression,并提出了一個(gè)生動(dòng)的概念Multimodal Tax,即引入音頻等多模態(tài)數(shù)據(jù)往往會(huì) “擠占” 模型用于純推理的能力。





      為了解決這一核心痛點(diǎn),香港中文大學(xué)(深圳)與微軟團(tuán)隊(duì)聯(lián)合提出了TARS(Trajectory Alignment for Reasoning in Speech)。這是一項(xiàng)基于強(qiáng)化學(xué)習(xí)(RL)的全新對(duì)齊框架,它不依賴死記硬背的監(jiān)督微調(diào),而是通過對(duì)齊 “思維軌跡”,成功將語音輸入的推理表現(xiàn)100% 恢復(fù)甚至超越了純文本基座水平。



      • 論文題目: Closing the Modality Reasoning Gap for Speech Large Language Models
      • 論文鏈接: https://arxiv.org/abs/2601.05543

      核心痛點(diǎn):為什么模型 “聽” 得越多,“想” 得越偏?

      目前的語音大模型(Speech LLM)通常采用 “語音編碼器 + 適配器 + LLM” 的三段式架構(gòu)。理論上,這應(yīng)該能讓語音輸入無縫借用 LLM 強(qiáng)大的推理大腦。但現(xiàn)實(shí)是:引入語音模態(tài)后,推理能力出現(xiàn)了斷崖式下跌

      此前的研究主要試圖從兩個(gè)方向修補(bǔ)這一鴻溝,但都存在缺陷:

      1. 輸入端強(qiáng)行對(duì)齊(Input Fusion):

      試圖讓語音特征在輸入層就長得和文本 Embedding 一樣。但語音天然包含語氣、停頓等富語言信息,與緊湊的文本本質(zhì)不同。僅依靠輸入對(duì)齊這種表面功夫,無法解決深層的表征漂移(Representation Drift)—— 隨著 Transformer 層數(shù)加深,語音激發(fā)的隱藏狀態(tài)(Hidden States)會(huì)逐漸偏離文本的思考軌跡(即相同語義純文本輸入時(shí),文本激發(fā)的隱藏狀態(tài)),導(dǎo)致 “想岔了”。

      2. 輸出端死記硬背(SFT / 蒸餾):

      這是最主流的做法,即通過監(jiān)督微調(diào)(SFT)利用靜態(tài)的 “語音 - 文本” 數(shù)據(jù)對(duì)進(jìn)行訓(xùn)練,或者通過知識(shí)蒸餾(Distillation)讓文本分支作為 “老師” 來指導(dǎo)語音分支這個(gè) “學(xué)生”。這些本質(zhì)上都屬于 Off-policy(離線策略),試圖強(qiáng)行讓語音分支去模仿文本的 Token 輸出分布。但這有兩個(gè)問題:

      • 目標(biāo)不可達(dá): 語音的噪聲和副語言特征決定了其輸出分布不可能和純文本完全一致。
      • Exposure Bias: 這種靜態(tài)監(jiān)督無法容錯(cuò)。推理時(shí)只要錯(cuò)一個(gè) Token,模型就會(huì)跌入訓(xùn)練未見過的狀態(tài),導(dǎo)致后續(xù)回復(fù)全盤崩潰。

      TARS 的核心洞察在于: 既然死記硬背行不通,能不能用強(qiáng)化學(xué)習(xí)(RL),讓模型自己在 “思考過程” 中去動(dòng)態(tài)對(duì)齊文本的軌跡,而不是對(duì)齊具體的字?

      TARS:用強(qiáng)化學(xué)習(xí)重塑語音推理軌跡

      TARS 是一個(gè)基于On-policy RL(具體采用 GRPO)的對(duì)齊框架。它巧妙地利用模型自身的文本分支作為 “動(dòng)態(tài)導(dǎo)師”,通過三個(gè)關(guān)鍵創(chuàng)新,把語音分支的 “腦回路” 掰回來。



      創(chuàng)新一:表征對(duì)齊(Representation Alignment)

      既然 Gap 和 “表征漂移” 相關(guān),TARS 選擇直接從模型內(nèi)部開刀。

      • 做法: 計(jì)算語音作為輸入,推理過程中每一層的隱藏狀態(tài)(Hidden States),與同一模型在文本輸入下(文本輸入和語音輸入在語義上完全相同)的隱藏狀態(tài)計(jì)算余弦相似度,作為表征對(duì)齊獎(jiǎng)勵(lì)。



      • 作用: 這就像給語音分支裝了一個(gè) “導(dǎo)航儀”。它不再只關(guān)注結(jié)果,而是引導(dǎo)語音分支的每一層思維路徑都時(shí)刻緊跟文本分支的軌跡,防止跑偏。

      創(chuàng)新二:行為對(duì)齊(Behavior Alignment)

      為了避免 SFT 的死板,TARS 在輸出端引入了更靈活的對(duì)齊標(biāo)準(zhǔn)。





      • 作用: 解決了 “目標(biāo)不可達(dá)” 的問題。允許語音和文本在措辭上有差異,只要邏輯對(duì)、意思對(duì)就能拿分。這讓模型在探索中學(xué)會(huì)了自我修正,而非機(jī)械模仿。

      創(chuàng)新三:非對(duì)稱獎(jiǎng)勵(lì)與模態(tài)歸一化

      在 RL 訓(xùn)練設(shè)計(jì)上,TARS 針對(duì)模態(tài)差異做了對(duì)應(yīng)優(yōu)化:

      1.非對(duì)稱獎(jiǎng)勵(lì)(Asymmetric Reward): 文本分支只拿基礎(chǔ)獎(jiǎng)勵(lì)(保住基本盤),語音分支額外拿對(duì)齊獎(jiǎng)勵(lì)(拼命追趕文本)。



      2.模態(tài)特定歸一化(Modality-Specific Normalization): 這一點(diǎn)至關(guān)重要。由于語音推理更難,往往得分較低,如果混合歸一化,語音分支會(huì)一直收到負(fù)梯度。TARS 將兩者分開歸一化,讓語音分支 “自己跟自己比”,保證了持續(xù)的優(yōu)化梯度 —— 即使在所有樣本任務(wù)準(zhǔn)確率都為 0 的極端困難情況下,對(duì)齊獎(jiǎng)勵(lì)依然能指導(dǎo)模型進(jìn)步。



      實(shí)驗(yàn)結(jié)果:推理能力 100% 復(fù)原

      團(tuán)隊(duì)在UnifiedQA數(shù)據(jù)集上訓(xùn)練,并在MMSUOBQA兩個(gè)高難度語音推理榜單上進(jìn)行了驗(yàn)證。實(shí)驗(yàn)基于 Qwen2.5-Omni 和 Phi-4-MM 架構(gòu)。

      核心戰(zhàn)績:MRR 突破 100%





      • 模態(tài)恢復(fù)率(MRR): TARS 在 7B 模型上達(dá)到了100.45%(Table 1 最后一行)。這意味著,語音輸入的推理能力不僅完全填補(bǔ)了引入音頻帶來的坑,甚至略微超過了文本基座的表現(xiàn)。
      • 碾壓基線: 相比 SALAD、AlignChat、KD 等 SOTA 方法,TARS 在 Phi-4-MM 上的準(zhǔn)確率達(dá)到了79.80%(Table 1 最后一行),穩(wěn)居 7B 規(guī)模模型第一,且顯著優(yōu)于 SFT 和 DPO 基線(Table 2)。

      TARS 不是在拆東墻補(bǔ)西墻!

      實(shí)驗(yàn)發(fā)現(xiàn),TARS 的對(duì)齊并不是 “拆東墻補(bǔ)西墻”。在使用 TARS 訓(xùn)練后,模型的文本準(zhǔn)確率也同步提升(Qwen: +2.39%, Phi: +5.43%)。這證明語音模態(tài)學(xué)習(xí)到的知識(shí),能夠同時(shí)增強(qiáng)文本的推理能力。

      總結(jié)與展望

      TARS 的提出標(biāo)志著語音大模型研究的一個(gè)轉(zhuǎn)折點(diǎn):

      1.范式轉(zhuǎn)變: 證明了On-policy RL在解決模態(tài)對(duì)齊問題上優(yōu)于傳統(tǒng)的 Off-policy(SFT / 蒸餾)方法。

      2.軌跡對(duì)齊: 提出的 “表征(過程)+ 行為(結(jié)果)” 對(duì)齊策略,有效消除模態(tài)推理鴻溝。

      TARS 證明了語音大模型完全可以擁有和純文本模型同等的 “智商”。對(duì)于致力于打造全能型 Omni 模型的研究者而言,TARS 提供了一條通往高智商語音交互的可行路徑。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      梁小龍被封殺原因曝光!血戰(zhàn)平安大廈:1人打十多名刀手,重傷4人

      梁小龍被封殺原因曝光!血戰(zhàn)平安大廈:1人打十多名刀手,重傷4人

      小娛樂悠悠
      2026-01-20 10:15:42
      李亞鵬房東回應(yīng)來了!大反轉(zhuǎn)看傻全網(wǎng)!

      李亞鵬房東回應(yīng)來了!大反轉(zhuǎn)看傻全網(wǎng)!

      廣告創(chuàng)意
      2026-01-19 18:23:10
      -9.7℃→22℃!湖南馬上升溫

      -9.7℃→22℃!湖南馬上升溫

      三湘都市報(bào)
      2026-01-21 10:22:09
      太陽主帥:杰倫-格林可以瞬間殺到籃下,有他在真的太好了

      太陽主帥:杰倫-格林可以瞬間殺到籃下,有他在真的太好了

      懂球帝
      2026-01-21 14:43:25
      《太平年》定檔央一!但凡白宇拉胯一點(diǎn),都?jí)翰蛔∵@群王炸配角

      《太平年》定檔央一!但凡白宇拉胯一點(diǎn),都?jí)翰蛔∵@群王炸配角

      往史過眼云煙
      2026-01-21 19:29:32
      農(nóng)村的冬天,仿佛是死亡的催化劑

      農(nóng)村的冬天,仿佛是死亡的催化劑

      詩詞中國
      2026-01-20 19:59:04
      西貝獲新一輪增資,賈國龍直接持股約26%,新榮記老板、螞蟻集團(tuán)前CEO入局

      西貝獲新一輪增資,賈國龍直接持股約26%,新榮記老板、螞蟻集團(tuán)前CEO入局

      界面新聞
      2026-01-21 20:30:07
      中國隊(duì)晉級(jí)亞洲杯決賽!以下7位國腳身價(jià)必漲,李昊+彭嘯位列其中

      中國隊(duì)晉級(jí)亞洲杯決賽!以下7位國腳身價(jià)必漲,李昊+彭嘯位列其中

      球場沒跑道
      2026-01-21 17:00:33
      文班亞馬:中國之行很美好,我在少林寺學(xué)到了從未經(jīng)歷的移動(dòng)方法

      文班亞馬:中國之行很美好,我在少林寺學(xué)到了從未經(jīng)歷的移動(dòng)方法

      懂球帝
      2026-01-21 22:21:07
      陳潔任華東醫(yī)院黨委委員、副院長

      陳潔任華東醫(yī)院黨委委員、副院長

      澎湃新聞
      2026-01-21 21:07:04
      山東一企業(yè)愿為嫣然天使兒童醫(yī)院提供北京朝陽區(qū)場地,院方今日實(shí)地探訪

      山東一企業(yè)愿為嫣然天使兒童醫(yī)院提供北京朝陽區(qū)場地,院方今日實(shí)地探訪

      紅星新聞
      2026-01-21 20:39:06
      珍寶島沖突后,軍委決定更換蘭州軍區(qū)當(dāng)家人,選出了一位頂級(jí)戰(zhàn)將

      珍寶島沖突后,軍委決定更換蘭州軍區(qū)當(dāng)家人,選出了一位頂級(jí)戰(zhàn)將

      史之銘
      2026-01-21 03:12:14
      一萬人中,能有多少人晚年還能健全走路?少坐多站的人,告訴實(shí)話

      一萬人中,能有多少人晚年還能健全走路?少坐多站的人,告訴實(shí)話

      健康科普365
      2026-01-18 16:35:03
      李湘風(fēng)波再發(fā)酵!家境被扒底朝天,父母身份曝光,原來何炅沒說錯(cuò)

      李湘風(fēng)波再發(fā)酵!家境被扒底朝天,父母身份曝光,原來何炅沒說錯(cuò)

      素衣讀史
      2026-01-21 13:57:53
      接受捐款僅2天,官媒對(duì)李亞鵬用了特殊稱呼,這次,沒給他留體面

      接受捐款僅2天,官媒對(duì)李亞鵬用了特殊稱呼,這次,沒給他留體面

      阿纂看事
      2026-01-20 13:12:13
      央媒就扶起老人反被訛發(fā)聲!如果要自證清白,公安機(jī)關(guān)要主動(dòng)介入

      央媒就扶起老人反被訛發(fā)聲!如果要自證清白,公安機(jī)關(guān)要主動(dòng)介入

      小熊侃史
      2026-01-19 07:35:08
      廣東大勝吉林!奎因轟42分,徐杰回暖,薩姆納劃水,焦泊喬傷退!

      廣東大勝吉林!奎因轟42分,徐杰回暖,薩姆納劃水,焦泊喬傷退!

      籃球資訊達(dá)人
      2026-01-21 21:22:43
      韓國前國腳:韓國球員比日本大兩歲,比賽場面讓人感到痛苦

      韓國前國腳:韓國球員比日本大兩歲,比賽場面讓人感到痛苦

      懂球帝
      2026-01-21 17:10:02
      “每次在歐洲吃飯都感覺自己像來上供的?!?>
    </a>
        <h3>
      <a href=“每次在歐洲吃飯都感覺自己像來上供的。” 窮游網(wǎng)
      2026-01-20 11:11:24
      豬油再次被關(guān)注!調(diào)查發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)4種變化

      豬油再次被關(guān)注!調(diào)查發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)4種變化

      蜉蝣說
      2026-01-19 11:40:12
      2026-01-21 22:47:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12162文章數(shù) 142547關(guān)注度
      往期回顧 全部

      科技要聞

      給機(jī)器人做仿真訓(xùn)練 這家創(chuàng)企年?duì)I收破億

      頭條要聞

      西安高校創(chuàng)始人兩女兒爭繼承權(quán) 判完才發(fā)現(xiàn)公證書造假

      頭條要聞

      西安高校創(chuàng)始人兩女兒爭繼承權(quán) 判完才發(fā)現(xiàn)公證書造假

      體育要聞

      只會(huì)防守反擊?不好意思,我們要踢決賽了

      娛樂要聞

      首位捐款的明星 苗圃現(xiàn)身嫣然醫(yī)院捐款

      財(cái)經(jīng)要聞

      丹麥打響第一槍 歐洲用資本保衛(wèi)格陵蘭島

      汽車要聞

      2026款上汽大眾朗逸正式上市 售價(jià)12.09萬起

      態(tài)度原創(chuàng)

      教育
      家居
      本地
      公開課
      軍事航空

      教育要聞

      這才是尖子生的提分捷徑!沖刺階段,“榨干”錯(cuò)題,告別死記硬背

      家居要聞

      褪去浮華 觸達(dá)松弛與欣喜

      本地新聞

      云游遼寧|漫步千年小城晨昏,“康”復(fù)好心情

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:對(duì)美國的真正威脅是聯(lián)合國和北約

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产一区二区三区在线观看免费| 久久精品免视看国产成人| 亚洲综合av色婷婷| 无玛视频| 国产一卡一卡| 丰满少妇被猛烈进入无码| 久久无码人妻精品一区二区三区| 神马午夜久久精品人妻| 亚洲综合国产伊人五月婷| 性欧美长视频免费观看不卡| 视频专区熟女人妻第二页| 欧美性猛交xxxx免费看| 人人操超碰| 中文字幕天天色色干干| 丝袜人妖av在线一区二区| 高清无码爆乳潮喷在线观看| 濮阳县| 被黑人伦流澡到高潮HNP动漫| 亚洲欧美日韩精品色xxx| 国产制服丝袜在线| 伊人桃花网| 720lu国产刺激无码| 亚洲第一福利视频导航| 国产手机在线αⅴ片无码观看| 中文字幕在线高清| AV一区二区三区| 国产AV国片精品有毛| 国产福利日本一区二区三区| 亚洲第一成人网站| 51国产在线| 国产片av片永久免费观看| 国产精品白丝久久AV网站| 99热都是精品久久久久久| 乱人伦精品视频在线观看| 午夜成人精品福利网站在线观看 | 在线免费观看毛片av| 岳阳县| 精品免费看国产一区二区| 久久人妻在线| 成在线人永久免费视频播放| 一本大道久久香蕉成人网|