<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      情感識別不再是分類題:EmotionThinker讓SpeechLLM 學會解釋情緒

      0
      分享至



      語音情感識別(Speech Emotion Recognition, SER)在過去基本遵循同一種范式:輸入語音,輸出情緒標簽。這種設定在工程上有效,但在認知層面卻過于簡化。

      在人類交流中,情緒判斷從來不是一個 “標簽選擇” 的過程,而是一種基于證據整合的推理行為。我們會綜合語調變化、音高起伏、語速快慢、重音位置、語義內容,以及說話人的身份特征,去解釋 “為什么” 這是憤怒、“為什么” 這是失落。

      因此,一個更根本的問題浮現出來:

      SpeechLLM 是否具備像人類一樣解釋 “為什么” 做出情緒判斷的能力?

      為此,研究團隊提出了EmotionThinker—— 首個面向可解釋情感推理(Explainable Emotion Reasoning)的強化學習框架,嘗試將 SER 從 “分類任務” 提升為 “多模態證據驅動的推理任務”。



      • 論文標題:EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

      一、從 “情緒分類” 到 “情感推理”

      EmotionThinker 首先對語音情感識別任務本身進行了重定義,將其擴展為情感推理任務(Emotion Reasoning)。在新的設定下,模型不僅需要預測情緒標簽,還需要生成一段解釋,明確指出:

      • 哪些聲學線索支持這一判斷
      • 哪些語義線索起到關鍵作用
      • 這些線索如何共同構成最終結論

      這種范式轉變意味著,模型輸出從 “標簽” 升級為 “標簽 + 基于證據的推理”。

      它的意義并非簡單延長輸出,而是對優化目標的重寫。模型不再只需 “預測正確”,而必須學習如何整合韻律、語義與說話人屬性等多模態信號,并在解釋中體現證據對齊過程。情緒識別由此從判別問題轉變為結構化推理問題。




      二、EmotionThinker:

      面向可解釋情感推理的框架

      EmotionThinker 的目標并不局限于提升最終準確率,而是同時提升三方面能力:

      (1)更高的情緒識別準確率

      (2)更強的情緒線索整合與推理能力

      (3)更細粒度的音頻描述能力,覆蓋說話人特征、韻律線索與語義信息

      為了支撐這一目標,研究團隊首先構建了EmotionCoT-35K。這是一個包含 35,000+ 條樣本的 Chain-of-Thought 風格數據集。與傳統 SER 數據不同,它不僅提供情緒標簽,還提供細粒度韻律描述與結構化推理解釋。

      這些樣本明確標注了音高、能量、語速、重音、語調輪廓等線索如何支持情緒判斷,使模型能夠學習到 “證據 — 推理 — 結論” 之間的對應關系。

      與此同時,研究團隊觀察到:若模型的韻律感知能力不足,其情感推理能力將受到系統性限制。因此,研究團隊進一步構建了一個 EmotionThinker-Base。EmotionThinker-Base 通過監督微調增強模型對音高變化、能量波動、語速模式與重音等結構的感知能力,從而為后續的推理優化提供穩定基礎。



      三、GRPO-PTR:

      讓強化學習真正優化 “解釋能力”

      在將語音情感識別重定義為情感推理之后,一個新的優化難題隨之出現:如何在開放式生成場景中,對 “推理質量” 進行穩定強化學習?直接將推理獎勵與情緒預測獎勵簡單疊加,會帶來明顯的噪聲問題。一方面,模型可能生成語言上看似合理但與最終情緒判斷不一致的解釋;另一方面,在訓練初期,模型尚未形成穩定的聲學 — 語義對齊能力,過強的推理獎勵容易放大早期隨機偏差,導致策略梯度震蕩。為此,研究團隊提出了 GRPO-PTR(Progressive Trust-aware Reasoning)。

      首先,研究團隊采用了漸進式推理獎勵調度。在訓練初期,優化重點放在情緒預測的穩定性上;隨著模型策略逐步收斂,逐步提高推理獎勵權重,使模型從 “預測正確” 過渡到 “解釋合理”。這種 reward scheduling 降低了早期高方差信號對訓練穩定性的影響。

      其次,研究團隊引入基于一致性的可信度加權機制。當模型生成的推理與最終情緒預測保持一致時,推理獎勵按完整權重計入;當二者存在沖突時,推理獎勵自動衰減。該機制有效緩解了開放式生成任務中常見的 reward misalignment 問題,使解釋優化始終服務于情緒判斷本身。

      從優化角度看,GRPO-PTR 解決的是一個更一般的問題:如何在 “預測 + 解釋” 的多目標生成任務中,使結構化推理與最終決策保持對齊,并在強化學習框架下穩定收斂。



      四、實驗結果與研究啟示

      在多個標準語音情感識別基準上,EmotionThinker 同時實現了:

      • 更高的情緒識別準確率
      • 更優的解釋質量
      • 更穩定的韻律線索整合能力

      更重要的是,我們觀察到一個關鍵現象:當模型被顯式訓練去對齊聲學線索與情緒判斷時,其在復雜情緒場景下的魯棒性顯著增強。這說明,情感理解的瓶頸并不僅僅在語義層面,而在于聲學與語義信號的協同建模能力。換句話說:如果模型不能準確理解 “怎么說”,它就無法穩定理解 “是什么情緒”。






      結語


      EmotionThinker 并不僅僅是在情感識別任務上提升準確率,而是在任務定義層面完成了一次轉變。

      情緒識別不應只是標簽預測,而應是基于多模態證據的結構化推理過程。從 “分類” 到 “解釋”,從 “標簽” 到 “證據 — 推理 — 結論” 的一致性對齊,情感理解正在進入一個強調可解釋性與結構協同的階段。

      當模型學會解釋情緒時,它不僅在給出判斷,也在展示其如何整合聲學與語義線索。

      這或許是多模態大模型邁向真正情感理解能力的重要一步。

      作者簡介

      本文第一作者為王丁冬,香港中文大學博士生,研究方向為語音大模型的口語理解,對話與推理 (Reasoning),導師為 Helen Meng 教授。本文在微軟劉樹杰博士與Jinyu Li博士的共同指導下完成。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      第5外援來了!朱芳雨親自官宣,杜鋒又撿到寶了,廣東爭冠穩了?

      第5外援來了!朱芳雨親自官宣,杜鋒又撿到寶了,廣東爭冠穩了?

      萌蘭聊個球
      2026-02-25 10:49:31
      李維嘉重返公眾視野,獨居生活狀態令人驚訝!

      李維嘉重返公眾視野,獨居生活狀態令人驚訝!

      舞指飛揚
      2026-02-25 09:31:33
      收評:全股民做好準備!A股變盤點來了,不出意外明天將這樣走

      收評:全股民做好準備!A股變盤點來了,不出意外明天將這樣走

      財經大拿
      2026-02-25 13:40:13
      巴拿馬賭輸了?撕毀長和租約后,中國21.4%貨運量成致命一擊

      巴拿馬賭輸了?撕毀長和租約后,中國21.4%貨運量成致命一擊

      始于初見見
      2026-02-25 07:43:24
      德國總理默茨抵達北京開始訪華,高規格經貿代表團隨行

      德國總理默茨抵達北京開始訪華,高規格經貿代表團隨行

      揚子晚報
      2026-02-25 11:18:35
      NBA|克尼佩爾創最快200記三分,哈登又添“最老紀錄”

      NBA|克尼佩爾創最快200記三分,哈登又添“最老紀錄”

      澎湃新聞
      2026-02-25 15:26:27
      3億煙民都供不起了?虧損原因是?有員工10年公積金高達96萬?

      3億煙民都供不起了?虧損原因是?有員工10年公積金高達96萬?

      貓叔東山再起
      2026-02-25 12:20:03
      歐冠16強已定12席:英超6隊全入圍!去年亞軍出局 意甲或全軍覆沒

      歐冠16強已定12席:英超6隊全入圍!去年亞軍出局 意甲或全軍覆沒

      我愛英超
      2026-02-25 06:26:28
      陳慧琳全家福刷屏!倆兒子身高超180,外甥多似舅果然是真的

      陳慧琳全家福刷屏!倆兒子身高超180,外甥多似舅果然是真的

      照亮你的前行之路
      2026-02-25 09:32:24
      一箱油可橫跨北美 本田新型小飛機賣爆:購買意向達產能10倍

      一箱油可橫跨北美 本田新型小飛機賣爆:購買意向達產能10倍

      快科技
      2026-02-24 08:21:03
      換掉原女主,陳麗君救了吳京《鏢人》!看了面試,才明白為何選她

      換掉原女主,陳麗君救了吳京《鏢人》!看了面試,才明白為何選她

      頭號電影院
      2026-02-23 13:09:53
      伊朗外長:希望在最短時間內與美國達成公平協議

      伊朗外長:希望在最短時間內與美國達成公平協議

      每日經濟新聞
      2026-02-25 07:26:59
      春節旅行,看完三亞賬單我沉默了:一家三口10天,燒掉一年血汗錢

      春節旅行,看完三亞賬單我沉默了:一家三口10天,燒掉一年血汗錢

      夜深愛雜談
      2026-02-24 22:41:54
      春節高速免費最后1分鐘:有人壓哨通過省下1000多元,也有車主從蕭山上高速后“卡點”失敗交了幾百元通行費

      春節高速免費最后1分鐘:有人壓哨通過省下1000多元,也有車主從蕭山上高速后“卡點”失敗交了幾百元通行費

      都市快報橙柿互動
      2026-02-24 09:16:26
      倆月了,一個也沒賣到中國去

      倆月了,一個也沒賣到中國去

      觀察者網
      2026-02-25 08:55:04
      芯片還沒量產,先產300個“臺積寶寶”!這產能太驚人!

      芯片還沒量產,先產300個“臺積寶寶”!這產能太驚人!

      達文西看世界
      2026-02-24 20:28:49
      WTT再爆大冷!3大世界冠軍被淘汰,日本大潰敗,國乒新星2-3出局

      WTT再爆大冷!3大世界冠軍被淘汰,日本大潰敗,國乒新星2-3出局

      籃球看比賽
      2026-02-24 15:15:56
      開油車的笑了,開電車的慌了?2026油電新政實錘,稅費規則全變了

      開油車的笑了,開電車的慌了?2026油電新政實錘,稅費規則全變了

      蜉蝣說
      2026-02-25 09:20:25
      天安門廣場上的國家博物館將在北京豐臺建分館

      天安門廣場上的國家博物館將在北京豐臺建分館

      澎湃新聞
      2026-02-25 12:54:27
      在國安局食堂吃飯時,無意發現打菜的師傅,竟是我追蹤的千面間諜

      在國安局食堂吃飯時,無意發現打菜的師傅,竟是我追蹤的千面間諜

      千秋文化
      2026-02-19 10:43:29
      2026-02-25 15:39:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12349文章數 142569關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      中方就涉烏克蘭問題的決議草案投棄權票 中國代表發聲

      頭條要聞

      中方就涉烏克蘭問題的決議草案投棄權票 中國代表發聲

      體育要聞

      曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰

      娛樂要聞

      撒貝寧到沈陽跑親戚 老婆李白模特身材

      財經要聞

      GEO亂象:誰為AI營銷的泡沫買單?

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      親子
      時尚
      數碼
      公開課
      軍事航空

      親子要聞

      拇指發育不良是懷孕吃了雞爪?無理取鬧,無中生有,無稽之談

      普通人穿衣別太老氣橫秋!這些穿搭給你靈感,保暖耐看兩不誤

      數碼要聞

      當耳機帶了AMOLED屏 當貝Air1深度評測:是時尚耳飾 更是地表最強 AI 耳機

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄烏沖突四周年:和平談判希望渺茫

      無障礙瀏覽 進入關懷版