網易首頁 > 網易號 > 正文申請入駐

情感識別不再是分類題：EmotionThinker讓SpeechLLM 學會解釋情緒

2026-02-25 13:45:15　來源: 機器之心Pro

河北舉報

分享至

語音情感識別（Speech Emotion Recognition, SER）在過去基本遵循同一種范式：輸入語音，輸出情緒標簽。這種設定在工程上有效，但在認知層面卻過于簡化。

在人類交流中，情緒判斷從來不是一個 “標簽選擇” 的過程，而是一種基于證據整合的推理行為。我們會綜合語調變化、音高起伏、語速快慢、重音位置、語義內容，以及說話人的身份特征，去解釋 “為什么” 這是憤怒、“為什么” 這是失落。

因此，一個更根本的問題浮現出來：

SpeechLLM 是否具備像人類一樣解釋 “為什么” 做出情緒判斷的能力？

為此，研究團隊提出了EmotionThinker—— 首個面向可解釋情感推理（Explainable Emotion Reasoning）的強化學習框架，嘗試將 SER 從 “分類任務” 提升為 “多模態證據驅動的推理任務”。

論文標題：EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

一、從 “情緒分類” 到 “情感推理”

EmotionThinker 首先對語音情感識別任務本身進行了重定義，將其擴展為情感推理任務（Emotion Reasoning）。在新的設定下，模型不僅需要預測情緒標簽，還需要生成一段解釋，明確指出：

哪些聲學線索支持這一判斷
哪些語義線索起到關鍵作用
這些線索如何共同構成最終結論

這種范式轉變意味著，模型輸出從 “標簽” 升級為 “標簽 + 基于證據的推理”。

它的意義并非簡單延長輸出，而是對優化目標的重寫。模型不再只需 “預測正確”，而必須學習如何整合韻律、語義與說話人屬性等多模態信號，并在解釋中體現證據對齊過程。情緒識別由此從判別問題轉變為結構化推理問題。

二、EmotionThinker：

面向可解釋情感推理的框架

EmotionThinker 的目標并不局限于提升最終準確率，而是同時提升三方面能力：

（1）更高的情緒識別準確率

（2）更強的情緒線索整合與推理能力

（3）更細粒度的音頻描述能力，覆蓋說話人特征、韻律線索與語義信息

為了支撐這一目標，研究團隊首先構建了EmotionCoT-35K。這是一個包含 35,000+ 條樣本的 Chain-of-Thought 風格數據集。與傳統 SER 數據不同，它不僅提供情緒標簽，還提供細粒度韻律描述與結構化推理解釋。

這些樣本明確標注了音高、能量、語速、重音、語調輪廓等線索如何支持情緒判斷，使模型能夠學習到 “證據 — 推理 — 結論” 之間的對應關系。

與此同時，研究團隊觀察到：若模型的韻律感知能力不足，其情感推理能力將受到系統性限制。因此，研究團隊進一步構建了一個 EmotionThinker-Base。EmotionThinker-Base 通過監督微調增強模型對音高變化、能量波動、語速模式與重音等結構的感知能力，從而為后續的推理優化提供穩定基礎。

三、GRPO-PTR：

讓強化學習真正優化 “解釋能力”

在將語音情感識別重定義為情感推理之后，一個新的優化難題隨之出現：如何在開放式生成場景中，對 “推理質量” 進行穩定強化學習？直接將推理獎勵與情緒預測獎勵簡單疊加，會帶來明顯的噪聲問題。一方面，模型可能生成語言上看似合理但與最終情緒判斷不一致的解釋；另一方面，在訓練初期，模型尚未形成穩定的聲學 — 語義對齊能力，過強的推理獎勵容易放大早期隨機偏差，導致策略梯度震蕩。為此，研究團隊提出了 GRPO-PTR（Progressive Trust-aware Reasoning）。

首先，研究團隊采用了漸進式推理獎勵調度。在訓練初期，優化重點放在情緒預測的穩定性上；隨著模型策略逐步收斂，逐步提高推理獎勵權重，使模型從 “預測正確” 過渡到 “解釋合理”。這種 reward scheduling 降低了早期高方差信號對訓練穩定性的影響。

其次，研究團隊引入基于一致性的可信度加權機制。當模型生成的推理與最終情緒預測保持一致時，推理獎勵按完整權重計入；當二者存在沖突時，推理獎勵自動衰減。該機制有效緩解了開放式生成任務中常見的 reward misalignment 問題，使解釋優化始終服務于情緒判斷本身。

從優化角度看，GRPO-PTR 解決的是一個更一般的問題：如何在 “預測 + 解釋” 的多目標生成任務中，使結構化推理與最終決策保持對齊，并在強化學習框架下穩定收斂。

四、實驗結果與研究啟示

在多個標準語音情感識別基準上，EmotionThinker 同時實現了：

更高的情緒識別準確率
更優的解釋質量
更穩定的韻律線索整合能力

更重要的是，我們觀察到一個關鍵現象：當模型被顯式訓練去對齊聲學線索與情緒判斷時，其在復雜情緒場景下的魯棒性顯著增強。這說明，情感理解的瓶頸并不僅僅在語義層面，而在于聲學與語義信號的協同建模能力。換句話說：如果模型不能準確理解 “怎么說”，它就無法穩定理解 “是什么情緒”。

結語

EmotionThinker 并不僅僅是在情感識別任務上提升準確率，而是在任務定義層面完成了一次轉變。

情緒識別不應只是標簽預測，而應是基于多模態證據的結構化推理過程。從 “分類” 到 “解釋”，從 “標簽” 到 “證據 — 推理 — 結論” 的一致性對齊，情感理解正在進入一個強調可解釋性與結構協同的階段。

當模型學會解釋情緒時，它不僅在給出判斷，也在展示其如何整合聲學與語義線索。

這或許是多模態大模型邁向真正情感理解能力的重要一步。

作者簡介

本文第一作者為王丁冬，香港中文大學博士生，研究方向為語音大模型的口語理解，對話與推理 (Reasoning)，導師為 Helen Meng 教授。本文在微軟劉樹杰博士與Jinyu Li博士的共同指導下完成。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.