<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      標簽分布近似學習主觀時間序列數據

      0
      分享至

      Learning subjective time-series data via Utopia Label Distribution Approximation

      通過 Utopia 標簽分布近似學習主觀時間序列數據

      https://www.sciencedirect.com/science/article/pii/S0031320324006757



      摘要
      主觀時間序列回歸(STR)任務最近受到了越來越多的關注。然而,大多數現有方法忽視了STR數據中的標簽分布偏差,這導致了模型的偏差。在年齡和深度估計等不平衡回歸任務的新興研究中,假設標簽分布是均勻且已知的。但在現實中,STR任務中測試集的標簽分布通常是不均勻且未知的。此外,時間序列數據在時間上下文和標簽空間中表現出連續性,這尚未被現有方法解決。為了解決這些問題,我們提出了一種烏托邦標簽分布近似(ULDA)方法,該方法將近似真實世界但未知(烏托邦)的標簽分布用于校準訓練集和測試集。烏托邦標簽分布是通過使用高斯核對原始分布進行卷積生成的。ULDA還設計了兩個新模塊(時間切片正態采樣(TNS)生成所需的新樣本和卷積加權損失(CWL)降低冗余樣本的學習權重),這些模塊不僅協助模型訓練,還保持了時間上下文空間中的樣本連續性。廣泛的實驗表明,ULDA提升了STR任務的最新性能,并展示了對其他時間序列任務的相當強的泛化能力。

      關鍵詞:標簽分布偏差、主觀時間序列回歸、烏托邦標簽分布近似、時間切片正態采樣、卷積加權損失

      1. 引言


        隨著多媒體社交網絡的快速發展,許多應用(例如多模態檢索 [1]、預告片生成 [2] 和個性化推薦 [3])都需要在若干任務上具備高性能算法,如視頻情感分析 [4,5]、視頻摘要生成 [6,7] 和音樂情緒識別 [8] 等。這些任務通常需要幀級別的標注,即對視頻或音頻片段中的每一幀進行標注。這些標簽通常是表示情緒極性與強度 [8,9] 或視頻摘要中各幀重要性得分 [6,10] 的數值,取值在一個連續范圍內。通常,這些數值是多位標注者主觀判斷的平均結果。本文將此類任務命名為 主觀時間序列回歸 (Subjective Time-series Regression, STR)任務。這與年齡估計 [11] 和深度估計 [12] 等回歸任務中使用的客觀標簽不同,后者的標簽基于可測量且可驗證的標準。

      由于STR任務的特殊性,每幀的回歸標簽是多位標注者投票的平均值。我們觀察到,大多數現有數據集的標注人數不足(例如,LIRIS-ACCEDE 數據集 [9] 中每個樣本僅有3位標注者,SumMe 數據集 [6] 中為15~18人,TVSum 數據集 [10] 中為20人)。在這種情況下,訓練集和測試集中的樣本及其標簽可被視為對現實世界的一種欠采樣。這可能導致每個訓練樣本的標簽發生偏斜,進而使得整個訓練標簽分布相較于真實世界的分布產生偏差。

      為緩解學習有偏模型的問題,研究人員已做出大量努力,試圖基于訓練數據估計真實世界的標簽分布,以校準訓練集和測試集。然而,測試集(即真實世界)的標簽分布通常是未知的。大多數現有研究假設測試集呈均勻分布,并通過平衡數據分布來解決該問題,主要分為兩類方法:數據級方法(Data-level methods),通過對訓練數據的子集進行過采樣或欠采樣以平衡分布,例如 SmoteR [13]、SmogN [14] 等;以及算法級方法(Algorithm-level methods),通過調整現有學習算法(尤其是損失函數)以更好地處理不平衡的訓練數據,例如 BMC [15]、Dense loss [16]、RankSim [17] 等。近期一項新興工作 DIR [18] 結合了上述兩類方法。盡管這些方法對于非時間序列回歸任務(如年齡估計 [11] 或深度估計 [12])可能是合理的,但在STR任務中,數據不太可能服從均勻分布,因為標簽具有主觀性。以情緒為例,在日常生活中,人們表達憤怒與中性情緒的概率幾乎不可能相等。因此,上述方法在STR任務中可能并不適用。

      鑒于STR任務中均勻分布的假設不合理,我們認為采用數據驅動的方法應是更優的選擇。為驗證這一假設,我們開展了一項初步研究。然而,由于收集具有充足標注的數據集極為困難,我們基于 LIRIS-ACCEDE 數據集 [9] 中所有影片的前1000秒,構建了一個虛擬電影的合成數據分布。該電影每一幀的標簽由大量虛擬標注者(100人)給出,其分布服從高斯分布,如圖1(a)所示。這些標簽的均值被用作真實世界中的“真實分布”,其統計分布如圖1(b)所示。為模擬現有數據集的情況,我們從這100名虛擬標注者中隨機選取3人,以其投票均值模擬訓練集的數據分布,如圖1(c)所示。圖1(d)展示了三種標簽分布:原始訓練集標簽分布(紅色)、均勻分布(淺藍色)以及本文所提方法估計的近似“烏托邦”標簽分布(深藍色)??梢杂^察到,均勻分布與圖1(b)中的真實世界標簽分布存在顯著差異;而僅由少數標注者投票得到的均值也嚴重偏離真實標簽,進一步導致標簽分布出現偏差。我們計算了這三種標簽分布與真實世界標簽分布之間的皮爾遜相關系數(PCC)。結果顯示,均勻分布的PCC最低(0.015),訓練集標簽分布次之(0.880),而我們近似的烏托邦標簽分布取得了最高的PCC(0.922)。


      為逼近烏托邦標簽分布,我們的思路不同于其他不平衡回歸方法——后者直接校準訓練集與測試集之間的標簽分布(如圖2(a)所示)。我們通過間接方式校準標簽分布,即將訓練集的分布逼近真實世界的分布(如圖2(b)所示)。然而,關鍵挑戰在于真實世界的分布是未知的。幸運的是,已有充分研究表明:在現實世界中,當標注者數量足夠多時,中心極限定理成立 [19,20]。這意味著,每個標簽值對應的樣本數量應服從高斯分布?;谶@一觀察,我們提出一種數據驅動的方法,稱為烏托邦標簽分布近似(Utopia Label Distribution Approximation, ULDA),該方法利用高斯核對訓練集的標簽分布進行卷積,從而逼近真實但未知的(“烏托邦”)標簽分布。圖1(d)中的PCC對比表明,僅使用訓練集,ULDA即可獲得最接近真實世界分布的代表性分布,且無需引入任何有偏假設。

      卷積之后,每個回歸標簽所需的樣本數量可能發生改變。然而,STR任務數據還具有另一個顯著特性——在時間上下文空間和標簽空間中均具有連續性,這使得前述數據級和算法級方法不再適用。為應對這一問題,我們設計了兩種策略:(1) 當卷積后所需樣本數量大于原始數量時,我們提出時間切片正態采樣(Time-slice Normal Sampling, TNS)方法,用于增強時間序列訓練樣本。TNS在短時間切片內估計樣本特征的正態分布,并通過蒙特卡洛采樣生成新樣本,以保持上下文連續性。(2) 當所需樣本數量小于原始數量時,我們設計了卷積加權損失(Convolution Weighted Loss, CWL),通過降低這些樣本的權重而非進行欠采樣來實現平衡。權重根據卷積前后樣本數量的比值計算得出。同樣,由于未剔除任何訓練樣本,CWL也能維持上下文連續性。

      本文的貢獻有三點:

      1. 我們深入探究了STR任務中數據分布的本質,并提出了烏托邦標簽分布近似(ULDA)方法,以解決時間序列數據中的標簽分布偏差問題。據我們所知,ULDA是文獻中首個針對該問題提出的方法。
      1. 我們設計了時間切片正態采樣(Time-slice Normal Sampling, TNS),這是一種數據級方法,用于在所需樣本數量大于原始樣本數量時生成新的時間序列數據;同時提出了卷積加權損失(Convolution Weighted Loss, CWL),這是一種算法級方法,用于在所需樣本數量小于原始數量時降低樣本的權重。
      2. 大量實驗表明,我們提出的 ULDA(結合 TNS 與 CWL)顯著提升了基線模型的性能,并在四個基準數據集上優于當前最先進的(SOTA)方法。我們的代碼已公開于:https://github.com/wxxv/ULDA_LIRIS_PGL 。
      1. 相關工作


        2.1 主觀時間序列回歸任務

      隨著主觀時間序列回歸(STR)任務受到越來越多的關注,近期已提出多個針對STR任務的數據集和方法。Baveye 等人 [9] 構建了 LIRIS-ACCEDE 數據集——一個用于情感內容分析的大規模視頻數據集,其中視頻每秒都被標注。他們還使用支持向量回歸(SVR)模型驗證了情緒回歸預測的可行性。Zhang 等人 [8] 創建了用于音樂情緒識別(MER)的 PMEmo 數據集,其中每首歌曲在每0.5秒處都帶有情緒標注。Gygli 等人 [6] 和 Song 等人 [10] 分別構建了 SumMe 和 TVSum 視頻摘要數據集,其中每一幀都被賦予一個重要性得分。

      在 STR 任務方面,Zhao 等人 [21] 為電影情感分析設計了一種雙時間尺度結構,能夠同時捕捉片段間(inter-clip)與片段內(intra-clip)的關系,以充分利用視頻中的時間上下文信息。Mittal 等人 [22] 提出了 Affect2MM 用于視頻情感分析,該方法利用 LSTM 模型提取視頻情緒特征,并聲稱 Affect2MM 是首個通過注意力機制和格蘭杰因果(Granger causality)顯式建模時間因果關系的方法。為克服以往方法在建模長期依賴方面的不足,Apostolidis 等人 [23] 提出了 PGL-SUM 用于視頻摘要,該方法通過結合全局與局部的多頭注意力機制,在不同粒度級別上建模幀之間的依賴關系。Zhang 等人 [24] 提出了 RMN(Reinforced Memory Network),這是一種基于強化學習的記憶網絡,可緩解 LSTM 的存儲限制以及長序列預測中的梯度消失/爆炸問題。據目前報道,RMN 在多種 STR 任務上達到了最先進的(SOTA)性能。

      上述所有方法均聚焦于學習時間序列數據更優的上下文特征。然而,它們忽略了現有 STR 數據集中因標注者數量不足所導致的標簽分布偏差問題,從而導致模型產生偏倚。

      2.2 不平衡回歸

      不平衡分類問題已得到廣泛研究 [25]。相比之下,不平衡回歸直到最近才引起研究者的關注。其目標是從天然不平衡的數據中學習連續目標值,并泛化到在整個連續目標值范圍內均衡分布的測試集上 [18]。由于標簽空間的連續性使得不平衡回歸區別于不平衡分類,研究人員提出了新的數據級或算法級方法,在從不平衡訓練集中學習時校正模型的偏差。

      數據級方法基于多種采樣策略。通常,它們試圖在數據預處理階段通過在預定義的稀有標簽區域合成新樣本、并在普通標簽區域進行欠采樣,從而構建一個平衡的訓練集。SmoteR [13] 基于 SMOTE [26],通過對輸入和目標在稀有區域進行線性插值來合成新數據。Branco 等人 [14,27] 提出了 SmogN,該方法將 SmoteR 與通過高斯噪聲進行的過采樣相結合;同時,他們還設計了 REBAGG 算法,該算法集成多個使用不同重采樣方法訓練的回歸器。

      算法級方法假設測試集是均衡且一致的,進而設計不同的重加權損失函數,以從不平衡訓練集中學習均衡的特征。Yang 等人 [18] 和 Steininger 等人 [16] 提出了 LDS 和 KDE 方法,將標簽的連續性納入考量:他們首先使用核密度估計(KDE)估計標簽密度分布,然后通過與標簽密度成反比的加權損失來優化模型。Gong 等人 [17] 引入了 RankSim,這是一種排序損失函數,同時考慮鄰近和遠距離標簽之間的關系,以學習更優的連續特征空間。Ren 等人 [15] 提出了 Balanced MSE,通過改進均方誤差(MSE)損失,防止在訓練集不平衡時對稀有標簽的低估。

      上述方法無論顯式還是隱式,都假設測試數據呈均勻分布。此外,非時間序列回歸任務中的采樣方法可能無法維持時間序列數據的上下文連續性。因此,這些方法不適用于 STR 任務。相比之下,我們提出的 ULDA(結合 TNS 與 CWL)在逼近“烏托邦”標簽分布的同時,保持了時間序列數據在標簽空間和時間上下文空間中的連續性。

      1. 所提出的方法

      眾所周知,在有偏的數據分布上進行學習會導致模型產生偏差。為了獲得公平的模型和更好的泛化能力,期望模型能在真實世界的數據分布上進行訓練。因此,我們的目標是讓模型在“烏托邦”標簽分布上學習——該分布基于數據集中原始的標簽分布來逼近真實世界的分布,如圖2(b)所示。


      3.1 問題設定與動機



      其中,表示人們投票不一致性的方差。一些研究者將不一致的投票視為噪聲標簽。我們可以看到,幸運的是,逼近“烏托邦”標簽分布等價于在標簽空間中進行高斯核回歸。盡管數據集中標注者數量較少,但他們的標注結果仍落在高斯分布范圍內。這啟發我們提出了“烏托邦標簽分布近似”方法。其核心組件是“標簽分布卷積”,用于逼近“烏托邦”標簽分布。為了使模型能更好地在“烏托邦”標簽分布上訓練,我們設計了一種數據級方法——“時間切片正態采樣”(TNS),以及一種算法級方法——“卷積加權損失”(CWL)。具體細節如下所述。

      3.2 標簽分布卷積



      3.3 時間切片正態采樣

      卷積之后,我們可以觀察到,某些回歸標簽所需的樣本數量大于原始樣本數量,如圖3(d)所示。SmoteR [13] 和 SmogN [14] 通過過采樣原始樣本來解決這一問題。然而,STR任務中標簽空間和時間上下文空間的連續性,使得其樣本與年齡估計或深度估計等任務中的樣本有所不同 [15,17,18]。例如,在時間序列數據中,具有相同標簽的樣本可能位于不同的時間點,它們可能表現出顯著不同的外觀,如場景切換或視角變換,如圖4(a)所示。因此,傳統方法(例如 Mixup [28] 和 SMOTE [26],這些方法通過隨機組合原始樣本來生成新樣本)可能無法維持樣本在時間上下文空間中的連續性。

      為解決這一問題,我們提出“時間切片正態采樣”(TNS),利用鄰近樣本以保持上下文連續性。TNS 在一個短時間切片內使用正態分布估計局部樣本的特征分布,然后基于該估計分布通過蒙特卡洛采樣來增強樣本。具體步驟如下:

      3.3.1 新樣本分配



      這確保了新樣本沿時間線均勻地添加到時間序列數據中。

      3.3.2 切片特征的正態分布估計





      3.4 卷積加權損失

      圖3(d)顯示,在某些回歸標簽處,所需樣本數量少于原始樣本數量。然而,欠采樣會破壞樣本的上下文連續性。受 Dense Loss [16] 和 LDS [18] 的啟發,我們根據每個標簽在卷積前后樣本數量的比例對這些樣本重新加權。



      其中, m m 是時間序列數據中的幀數,的真實標簽和預測標簽。CWL 通過降低樣本權重而非刪除樣本,來維持時間序列數據的上下文連續性。與期望模型在均衡標簽分布上訓練的逆頻率損失 [29] 和 Dense Loss [16] 不同,CWL 基于近似的烏托邦標簽分布。

      1. 實驗

      為評估所提出方法的性能,我們在四個用于 STR 任務的基準數據集上進行了實驗,包括電影情感分析、音樂情緒識別和視頻摘要。

      此外,還進行了性能與標簽分布之間相關性的分析,以揭示性能提升的內在機理。

      4.1 數據集與評估指標

      LIRIS-ACCEDE [9] 是一個廣泛用于電影情感分析的視頻內容語料庫,包含160部電影,每秒均標注有連續的效價(valence)和喚醒度(arousal)分數,取值范圍為 [?1, 1]。該數據集涵蓋恐怖、喜劇、動作等多種主題,并提供英語、法語和西班牙語等多個語言版本。

      PMEmo [8] 包含794段音樂副歌片段,每個0.5秒片段均帶有動態標注的效價和喚醒度分數(范圍為 [?1, 1]),每個標簽至少由10位標注者提供。

      SumMe [6] 包含25個用戶拍攝的視頻,涵蓋烹飪、體育等多樣化事件,視頻時長在1.5至6.5分鐘之間。每一幀的重要性得分(范圍為 [0, 1])由15至18位標注者投票得出。

      TVSum [10] 包含從YouTube收集的50個視頻,涵蓋10個不同類別,如動物美容、制作三明治、更換汽車輪胎等。視頻時長在1至5分鐘之間,由20位用戶對每一幀進行重要性評分,生成幀級別的連續重要性得分序列(范圍為 [0, 1])。

      對于 LIRIS-ACCEDE,評估指標采用均方誤差(MSE)和皮爾遜相關系數(PCC);對于 PMEmo,使用均方根誤差(RMSE)和 PCC;對于 SumMe 和 TVSum,我們遵循文獻 [23],采用 F1 分數作為評估指標。

      4.2 基線方法

      我們在三個用于主觀時間序列回歸(Subjective Time-series Regression, STR)任務的模型上評估了所提出的 ULDA 方法。

      PGL-SUM [23] 是為視頻摘要任務設計的模型,在 SumMe 和 TVSum 數據集上表現出色。該方法將每個視頻劃分為 M M 個片段,并利用多頭注意力機制建模全局幀與局部幀之間的依賴關系。PGL-SUM 將原始深度表征與編碼了全局和局部依賴關系的表征相結合,再通過 Dropout 和歸一化層輸入到回歸網絡中,以預測重要性得分。

      僅編碼器 Transformer(Encoder-only Transformer, ET)[30] 是 MuSe-Stress 2022 挑戰賽中表現最佳的模型之一。該挑戰賽旨在構建序列回歸模型,用于預測個體在壓力情境下的效價(valence)和生理喚醒度(arousal)水平。ET 由兩個線性層、一個位置編碼器和一個 Transformer 編碼器組成。

      RMN [24] 最初為電影情感分析任務提出,據報告是目前在 LIRIS-ACCEDE 數據集上性能最好的模型。此外,它在其他長序列預測任務上也展現出良好的泛化能力。RMN 引入了一個可讀可寫的記憶庫,用于存儲有用的歷史特征,并采用強化學習機制更新記憶庫中的內容。我們根據論文中的描述復現了 RMN 模型。

      4.3 實現細節

      對于 LIRIS-ACCEDE 數據集,為每一幀提取多模態特征,包括音頻、背景音樂、視覺場景、人體動作和面部表情。

      • 音頻特征:使用在 AudioSet [32] 上預訓練的 VGGish [31] 提取一個 128 維向量。
      • 背景音樂(bgm)特征:同樣使用預訓練的 VGGish 提取一個 128 維向量。
      • 場景特征:在 Places365 [33] 上預訓練的 VGG16 模型的最后一層卷積層上執行全局最大池化操作,得到一個 512 維向量。
      • 人體動作特征:在 OpenPose 的主干網絡 [34] 后附加兩組卷積/最大池化層和一個全連接層,并在 LIRIS-ACCEDE 數據集上進行微調;從最后一層全連接層中提取一個 128 維的動作特征。
      • 面部表情特征:利用 MTCNN [35] 檢測到的最大人臉,并使用在 RAF [37] 上預訓練的 Xception 網絡 [36] 提取一個 3072 維向量。

      為了將這些幀級特征融合為片段級(slice-level)向量,采用了一個包含 128 個單元的兩層雙向 LSTM。

      對于 PMEmo 數據集,使用 VGGish [31] 提取音頻特征。對于 SumMe 和 TVSum 數據集,使用在 ImageNet [39] 上預訓練的 GoogleNet [38] 倒數第二層(pool5)的輸出作為幀表示。

      對于 LIRIS-ACCEDE 和 PMEmo 數據集,參數 b 設為 100;對于 SumMe 和 TVSum 數據集, b 設為 10。高斯核函數 k ( ? )
      用于卷積的核大小 δ 和標準差 σ 分別為:

      • LIRIS-ACCEDE:0.06, 0.06
      • PMEmo:0.3, 0.3
      • SumMe:0.02, 0.02
      • TVSum:0.1, 0.1

      在估計片段內特征集的正態分布時,所有數據集的時間片段長度閾值 T T 均設為 10。

      由于 TNS 在特征空間中生成新樣本,我們根據各基線模型自身的架構,將這些樣本放置在合適的位置:

      • 對于 PGL-SUM,TNS 被置于全局與局部特征融合之后;
      • 對于 ET,TNS 被置于 Transformer 編碼器之后;
      • RMN 不應用 TNS,因為它沿時間軸通過樣本逐步更新,因此僅對 RMN 應用 CWL。

      所有三個基線模型的超參數均與其原論文中的設置保持一致。

      4.4 主要結果

      我們在四個主觀時間序列回歸數據集上,基于三個基線模型對所提出的 ULDA 方法進行了評估。對于每個數據集,我們首先將 RMN+ULDA 與其他競爭方法進行比較,然后將三個基線模型分為四個子部分,以展示 ULDA 為每個基線帶來的性能提升。每項測試均重復三次,并在表 1、表 2 和表 3 中報告平均結果。其中,“Baseline” 表示我們復現的模型結果,“CWL” 表示僅在對原始標簽分布進行卷積后使用 CWL 的結果,“TNS + CWL” 表示對需要過采樣的標簽使用 TNS、對需要欠采樣的標簽使用 CWL(均在標簽卷積之后)的結果。




      LIRIS-ACCEDE 數據集上的視頻情感分析結果如表 1 所示。我們最佳的模型 RMN+ULDA 幾乎優于所有競爭方法??梢钥闯?,最新的 SOTA 方法 RMN 在使用近似烏托邦標簽分布進行訓練后,在效價(Valence)的 PCC 以及喚醒度(Arousal)的 MSE 和 PCC 上均獲得了顯著提升,僅效價的 MSE 基本保持不變。

      我們還評估了 CWL 和 TNS 在每個基線模型上的有效性。需要注意的是,我們自行實現了三個基線模型,并在我們的計算環境中進行了測試,其性能與文獻 [24] 中報告的結果存在一定差距。可以觀察到,僅使用 CWL 就能提升這些基線模型的性能:

      • 在 MSE 指標上,CWL 對效價和喚醒度的基線模型平均相對提升了約 11.7% 和 6.4%;
      • 在 PCC 指標上,CWL 對效價和喚醒度的基線模型平均相對提升了約 10.0% 和 6.0%。

      在結合 CWL 與 TNS 后,基線模型的性能進一步提升:

      • 在 MSE 指標上,TNS + CWL 對效價和喚醒度的基線模型平均相對提升了約 17.1% 和 7.8%;
      • 在 PCC 指標上,平均相對提升了約 20.5% 和 14.4%。

      我們認為這一額外性能增益的原因如下:在稀有標簽處,由于樣本不足,數據空間無法被充分表征;相比之下,TNS 通過蒙特卡洛采樣生成新樣本,增加了數據多樣性,使模型能夠學習到更優的數據表示。

      在 PMEmo 數據集上(見表 2)也可觀察到類似結果。RMN+ULDA 在效價和喚醒度的 PCC 上顯著優于競爭方法;在 MSE 上,其結果與競爭方法相當。對于各基線模型,僅使用 CWL 就能在效價和喚醒度的 MSE 與 PCC 上帶來顯著提升;在結合 CWL 與 TNS 后,幾乎所有指標的性能都進一步提高。

      視頻摘要任務在 SumMe 和 TVSum 數據集上的結果如表 3 所示。我們同樣觀察到類似趨勢:我們最佳的模型 RMN+ULDA 在 SumMe 數據集上顯著優于所有競爭方法,在 TVSum 數據集上取得的 F1 分數與 RMN 相當。對于基線模型,TNS + CWL 在 SumMe 和 TVSum 上分別帶來了平均約 3.9% 和 3.5% 的絕對提升。

      上述所有結果表明,在主觀時間序列回歸(STR)任務中,近似烏托邦標簽分布比原始標簽分布更為有效。

      4.5 性能與標簽分布的相關性分析
      為了深入理解性能提升的原因,我們在 LIRIS-ACCEDE 數據集上對訓練集在使用和不使用高斯卷積情況下的標簽分布,以及測試集的標簽分布進行了相關性分析,如圖 5(a) 所示。這三種分布分別用藍色、紅色和黃色表示。在該分析中,我們以 PGL-SUM 模型為例。圖 5(b) 繪制了使用和不使用 ULDA 訓練的 PGL-SUM 模型的 MSE 結果。其中,實線表示每個標簽下所有樣本的平均 MSE,陰影帶表示對應標簽下所有樣本 MSE 的取值范圍。


      總體來看,經過卷積后,訓練集的近似烏托邦標簽分布與測試集標簽分布之間的 PCC(皮爾遜相關系數)有所提高,即這兩個標簽分布變得更加相似。與此同時,平均 MSE 下降(見圖 5(b) 中的藍色實線)。更重要的是,MSE 的取值范圍顯著變窄(見藍色陰影帶)。

      我們觀察到,平均 MSE 隨樣本數量的變化而變化。因此,我們將訓練集的標簽分布進一步劃分為三個區域:以 500 為閾值,樣本數量高的區域記為 II,樣本數量低的兩個區域記為 I 和 III。在區域 II 中,無論是否使用 ULDA,平均 MSE 都較小;在區域 III 中,平均 MSE 降低;而在區域 I 中,平均 MSE 反而升高。可以看出,平均 MSE 的變化與 PCC 的變化呈負相關。然而,在幾乎所有三個區域中,MSE 的取值范圍都明顯收窄,表明模型預測的穩定性(即模型公平性)得到了提升。

      基于上述觀察,我們可以得出兩個結論:
      (1) 性能提升主要源于近似烏托邦標簽分布更接近測試集的標簽分布;
      (2) 在近似烏托邦標簽分布上訓練后,模型能夠產生更加穩定的預測結果。

      4.6 消融實驗
      我們在 LIRIS-ACCEDE 數據集上進行了消融研究,以分析 ULDA 中各類加權損失函數、過采樣方法以及關鍵參數的有效性。

      4.6.1 加權損失函數
      為驗證卷積加權損失(Convolution Weighted Loss, CWL)的有效性,我們將其與三種用于不平衡回歸任務的其他損失函數進行比較:
      (1) 逆頻率加權(Inverse-frequency Weighting, INV)[29]:根據每個標簽觀測到的概率密度的乘法逆進行樣本重加權;
      (2) 標簽分布平滑(Label Distribution Smoothing, LDS)[18]:首先使用高斯核對標簽分布進行平滑,以估計包含標簽相關性的標簽密度分布,然后應用 INV 損失;
      (3) Dense Loss [16]:與 LDS 類似地估計標簽密度分布,但使用平滑后標簽概率密度分布的加法逆對樣本進行重加權。

      這些損失函數的假設與 CWL 不同:它們假設測試集是均勻分布的,并期望模型在平衡的訓練集上進行訓練。而 CWL 則期望模型學習的是“烏托邦標簽分布”——該分布不一定均勻,但更接近真實世界的情況。

      表 4 的結果顯示,CWL 在幾乎所有測試中表現最佳。這表明“數據集均勻分布”的假設在主觀時間序列回歸(STR)任務中可能不成立,同時也驗證了我們所提出的近似烏托邦標簽分布的有效性。

      4.6.2 過采樣方法
      為評估 TNS 的有效性,我們將其與兩種廣泛接受的回歸任務過采樣方法進行比較:
      (1) SMOGN [14]:結合 SmoteR [13] 與高斯噪聲生成新樣本;
      (2) C-Mixup [28]:基于標簽距離選擇更可靠的鄰近樣本用于合成新樣本。

      在本次實驗中,SMOGN 和 C-Mixup 僅在時間片段(slice)內部選擇樣本進行過采樣,以保持新樣本在時序上下文空間中的連續性。為適配近似烏托邦標簽分布,我們同時使用 CWL 來降低那些需要欠采樣的標簽上樣本的損失。



      表 5 的結果表明,TNS 在 ET 模型上取得了最佳性能;在 PGL-SUM 模型上,TNS 在喚醒度(arousal)預測中表現最佳,在效價(valence)預測中排名第二。這說明 TNS 在 STR 任務中比其他兩種方法更有效,因為它能夠更好地保持新樣本的上下文連續性。

      4.6.3 關鍵參數



      1. 結論與局限性


        我們提出了一種新穎的“烏托邦標簽分布近似”(Utopia Label Distribution Approximation, ULDA)方法,用于解決主觀時間序列回歸(STR)任務中時間序列數據存在的標簽分布偏差問題。ULDA 通過使訓練集與測試集的標簽分布更加相似,提升了模型的公平性,從而將現有 STR 方法在四個基準數據集上的性能推至新的最先進(state-of-the-art)水平。

      然而,我們的方法仍存在一些局限性。時間片段正態采樣(Time-slice Normal Sampling, TNS)雖用于保持時間序列的上下文連續性,但其在模型前向過程中需要增加樣本數量,這限制了它在某些其他模型中的應用。此外,對片段特征進行正態分布估計會增加時間復雜度,且該復雜度與特征維度成正比:更高的維度雖能帶來更精確的數據表示,卻也導致顯著更高的計算開銷。

      未來,我們將研究更高效的采樣方法以克服上述局限,并希望我們的工作能夠激發更多關于在標簽分布存在偏差情況下如何有效訓練模型的研究。

      原文鏈接:https://www.sciencedirect.com/science/article/pii/S0031320324006757

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一句“搞么哩”火遍全網!4歲重慶娃,讓千萬人看見家的幸福模樣

      一句“搞么哩”火遍全網!4歲重慶娃,讓千萬人看見家的幸福模樣

      江津融媒
      2026-01-27 13:05:14
      鄒市明虧光2億左眼失明,仍需打零工養3個孩子買不起新衣服

      鄒市明虧光2億左眼失明,仍需打零工養3個孩子買不起新衣服

      淡淡稻花香s
      2026-01-27 22:49:13
      重磅!總投資9600億元,海南2026年重大項目清單曝光!

      重磅!總投資9600億元,海南2026年重大項目清單曝光!

      網易海南房產
      2026-01-27 10:14:35
      廣州一乘客羊城通欠費1400萬元? 嶺南通公司回應

      廣州一乘客羊城通欠費1400萬元? 嶺南通公司回應

      深圳晚報
      2026-01-27 10:15:25
      二手房雄起:天津9個區上漲,最高漲幅26.5%

      二手房雄起:天津9個區上漲,最高漲幅26.5%

      濱海房叔
      2026-01-27 09:56:28
      蹉跎半生的樊振東父母沒想到,兒子一則動態,讓他們迎來無上榮光

      蹉跎半生的樊振東父母沒想到,兒子一則動態,讓他們迎來無上榮光

      以茶帶書
      2026-01-27 17:20:57
      哈梅內伊藏身地堡!48小時內有45架美軍運輸機飛抵中東

      哈梅內伊藏身地堡!48小時內有45架美軍運輸機飛抵中東

      項鵬飛
      2026-01-25 20:25:40
      斯諾克最新:中國8人進32強,趙心童凌晨戰福德,火箭對卡特

      斯諾克最新:中國8人進32強,趙心童凌晨戰福德,火箭對卡特

      老牛體育解說
      2026-01-28 01:27:25
      梁羽生的《云海玉弓緣》只此一節,便足以和金庸相媲美了

      梁羽生的《云海玉弓緣》只此一節,便足以和金庸相媲美了

      青霄
      2026-01-27 22:27:32
      中國有源相控陣雷達真實水平:并非世界第一,和美差距有多大

      中國有源相控陣雷達真實水平:并非世界第一,和美差距有多大

      黑翼天使
      2026-01-10 03:28:16
      中國股市:換手率一旦大于7%,果斷進入,不是漲停就是漲不停!

      中國股市:換手率一旦大于7%,果斷進入,不是漲停就是漲不停!

      一方聊市
      2026-01-23 08:00:03
      醫生發現:早期腦梗不是頭暈,而是頻繁出現這5個異常,別忽視

      醫生發現:早期腦梗不是頭暈,而是頻繁出現這5個異常,別忽視

      蜉蝣說
      2026-01-20 15:16:24
      5局惜敗+4場關鍵戰拉胯!陳方的固執坑慘天津女排,本土名宿才是救命稻草

      5局惜敗+4場關鍵戰拉胯!陳方的固執坑慘天津女排,本土名宿才是救命稻草

      畫夕
      2026-01-28 04:00:46
      何慶魁:我一個人支撐本山傳媒好幾年!網友:黑土,有人喊你打錢

      何慶魁:我一個人支撐本山傳媒好幾年!網友:黑土,有人喊你打錢

      手工制作阿殲
      2026-01-28 03:17:23
      為什么全國人民都在拒接電話?連10086打來也是瞄一眼就掛掉了!

      為什么全國人民都在拒接電話?連10086打來也是瞄一眼就掛掉了!

      今朝牛馬
      2026-01-08 16:05:10
      車門緊鎖拍窗毫無反應,上海一司機疑似車內昏迷,民警當機立斷破窗救人,送醫及時最終脫離危險

      車門緊鎖拍窗毫無反應,上海一司機疑似車內昏迷,民警當機立斷破窗救人,送醫及時最終脫離危險

      縱相新聞
      2026-01-27 20:13:03
      如果不及時快速的解決臺灣,有可能出現無法挽回的局面

      如果不及時快速的解決臺灣,有可能出現無法挽回的局面

      曉楖科普
      2026-01-26 22:34:40
      賈家被抄家的真實原因,就是賈元春省親,可惜他們沒懂皇帝的用意

      賈家被抄家的真實原因,就是賈元春省親,可惜他們沒懂皇帝的用意

      銘記歷史呀
      2026-01-26 19:39:13
      76歲上海知青回江西訪友,竟發現當年的女友終生未嫁:我對不住你

      76歲上海知青回江西訪友,竟發現當年的女友終生未嫁:我對不住你

      五元講堂
      2026-01-19 11:13:16
      山東一66歲大媽喜歡睡前泡腳,不久腦梗去世,醫生怒斥:太無知了

      山東一66歲大媽喜歡睡前泡腳,不久腦梗去世,醫生怒斥:太無知了

      華庭講美食
      2026-01-25 12:26:25
      2026-01-28 06:19:00
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1182文章數 18關注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關鍵信息

      頭條要聞

      美報告稱中國是其19世紀以來面對過的最強大國家

      頭條要聞

      美報告稱中國是其19世紀以來面對過的最強大國家

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      張雨綺風波持續發酵,曝多個商務被取消

      財經要聞

      多地對壟斷行業"近親繁殖"出手了

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      親子
      時尚
      健康
      房產
      軍事航空

      親子要聞

      雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨立帶娃嗎?

      這些韓系穿搭最適合普通人!多穿深色、衣服基礎,簡潔耐看

      耳石脫落為何讓人天旋地轉+惡心?

      房產要聞

      實景兌現在即!綠城,在海棠灣重新定義終極旅居想象!

      軍事要聞

      美海軍"林肯"號航母打擊群抵達中東地區

      無障礙瀏覽 進入關懷版