![]()
作者 | 劉瑞
審校 | 蔡芳芳
論文題目
: VBF++: Variational Bayesian Fusion with Context-Aware Priors and Recommendation-Guided Adversarial Refinement for Multimodal Video Recommendation
作者單位
: 北京航空航天大學 & 北京郵電大學
參考代碼
: https://github.com/muhhpu/VBF
痛點:確定性融合的
“不確定性”危機
多模態視頻推薦系統在捕捉用戶興趣時,需要高效整合視頻的視覺、聽覺和文本特征。然而,現有的主流方法(如基于注意力機制或圖神經網絡的確定性融合方法 [2-3])面臨著一個根本性的挑戰:它們傾向于為給定的輸入計算一個單一的、最優的權重向量,將多模態融合視為尋找“全局唯一最優解”的優化問題 。
這種“點估計”的策略,在面對真實世界短視頻生態中的三大“不確定性”時 [5-6],顯得尤為脆弱 :
認知不確定性 (Epistemic Uncertainty): 面對噪聲干擾、模態缺失或語義模糊的短視頻內容時,單一的融合方案往往不夠魯棒,忽略了可能存在的多個合理的融合策略空間 。
上下文無關的簡單先驗: 現有的變分方法雖然引入了概率建模,但通常假設視頻內容服從相同的簡單分布(如標準高斯分布 )[4],忽略了不同語義類別(如動作片對視覺的依賴 vs. 音樂片對聽覺的依賴)對模態依賴的結構化差異 。
目標錯位 (Objective Misalignment): 傳統變分自編碼器(VAE)優化的證據下界(ELBO)目標主要關注特征重構質量,而推薦系統追求的是排序準確性(Ranking)。重構得好不等于推薦得準。
范式革新:VBF++ 將融合從
“點估計”升級為“分布建模”
近日,北京航空航天大學和北京郵電大學聯合提出了一種全新的概率化框架—VBF++(Variational Bayesian Fusion with Context-Aware Priors and Recommendation-Guided Adversarial Refinement)[1]。
VBF++ 的核心思想是將多模態融合過程重新表述為一個變分推理問題,成功將融合范式從傳統的“點估計”轉變為更具魯棒性的“分布建模”范式。
該框架認為:每個視頻 Vi 關聯一個潛在的隨機融合策略變量 Zi,通過捕捉 Zi 的隨機性,模型能夠量化融合權重的可信度,保留多種可能的融合解釋。
VBF++ 的整體框架(圖 1)由三大關鍵組件構成,完美解決了上述挑戰:
上下文感知的結構化先驗 (Context-Aware Prior);
推薦引導的對抗性優化 (Recommendation-Guided Adversarial Refinement, RAR);
基于元學習的域適應 (Meta-Learner)。
![]()
圖 1 VBF++ 的分層概率模型框架。包含上下文感知先驗、變分后驗、動態融合網絡及對抗優化模塊。
VBF++ 三大核心創新點深度解析
結構化先驗:讓模型“見微知著”
為了解決簡單高斯先驗的局限性,VBF++ 設計了一個可學習的混合先驗機制。
它不是簡單地假設所有視頻都一樣,而是根據視頻的語義類別(如動作片、音樂片、紀錄片等),動態調整融合策略的先驗分布。模型將視頻劃分為
個語義簇,并為每個簇學習特定的先驗分布中心 。
![]()
圖 2 訓練前后融合策略的 t-SNE 可視化。訓練后策略自動聚類成有意義的語義群組。
效果驗證:訓練后的策略在潛在空間中自動聚類成明顯的語義群組(見圖 2),且這種聚類與視頻內容高度一致(見圖 3):
動作類視頻自動賦予視覺模態更高權重(平均 0.68)。
音樂類視頻聲學模態權重顯著增加(平均 0.71)。
紀錄片中文本描述的權重占主導(平均 0.59)。
![]()
圖 3 學習融合策略與后驗不確定性分析。(a) 模態權重分布具有語義適應性。(b) 后驗不確定性分析表明,內容模糊的視頻具有更高的不確定性。
RAR:用對抗學習對齊推薦目標
這是 VBF++ 解決“目標錯位”的核心利器。
傳統的 ELBO 損失側重重構,VBF++ 引入了 RAR (Recommendation-Guided Adversarial Refinement) 范式:
經驗回放緩沖區 :首先,模型收集那些推薦損失 較低的、高質量的融合策略 。
對抗訓練:隨后,引入一個判別器 ,通過對抗性訓練強制編碼器(生成器)生成的融合策略分布 逼近這個高質量策略的集合 。
簡而言之,RAR 機制顯式地將變分學習導向了推薦排序目標,確保了模型在保持多樣性的同時,生成的策略是真正“好用”的。
元學習:應對冷啟動與快速適應
為了適應快速變化的短視頻環境和跨域推薦,VBF++ 集成了元學習器(Meta-Learner)。該模塊利用 MAML 思想,通過梯度更新快速調整模型參數θ,實現對新內容和新領域的快速適應,有效解決了新內容的冷啟動問題。
實驗結果:刷新 SOTA,
兼顧多樣性與準確性
實驗與結果
VBF++ 在 MovieLens-10M、TikTok 和 Kuaishou 三個真實世界數據集上進行了全面評估,如表 1。
![]()
表 1 VBF++ 與現有 SOTA 方法在三個數據集上的性能對比
全面 SOTA:VBF++ 在所有數據集和指標上均超越了包括 LightGCN、MMGCN、LATTICE 等 14 種現有的基線方法。
稀疏數據表現:在數據稀疏的 TikTok 數據集上,相比最先進的 MVideoRec,Precision@10 提升了 4.7% - 8.3%,證明了概率化融合在處理不確定性和噪聲方面的有效性。
跨域適應性:在跨域推薦設置下,VBF++ 相比基線取得了18.0% - 25.2%的顯著提升,驗證了元學習與不確定性建模結合后的強大泛化能力。
策略空間可視化:確定性 vs. 概率性
VBF++ 最大的優勢在于保持推薦準確性的同時,量化了融合策略的可信度。圖 4 展示了傳統注意力機制與 VBF++ 在對同一視頻進行 100 次推理時,其融合策略在潛在空間中的分布差異:
![]()
圖 4 傳統注意力機制(左)與 VBF++(右)在同一輸入下的融合策略分布對比。顏色梯度表示策略質量。
傳統注意力(左):結果幾乎坍縮在空間中的同一個點,模型缺乏彈性,無法對融合權重的可信度進行建模。
VBF++(右):策略分布呈現出一個結構化的橢圓置信區域,圍繞在高質量策略中心附近(綠色 / 黃色點)。這證明模型成功學習到了一個后驗分布 ,在保留必要探索空間的同時,確保了準確性。
總結與展望
VBF++ 成功地為多模態視頻推薦系統引入了不確定性建模,實現了從確定性點估計到變分貝葉斯融合的范式轉變。通過三大創新模塊——上下文感知先驗、推薦引導的對抗優化和元學習,VBF++ 不僅刷新了 SOTA 性能,更生成了具有可解釋性和語義意義的融合策略。這項工作為處理多模態數據中的不確定性和噪聲提供了堅實的理論基礎和有效的解決方案。
參考文獻
Cao, Z., Liu, R., & Chen, Y. (2025). VBF++: Variational Bayesian Fusion with Context-Aware Priors and Recommendation-Guided Adversarial Refinement for Multimodal Video Recommendation. Beihang University & BUPT.
Wei, Y., Wang, X., Nie, L., He, X., Hong, R., & Chua, T. S. (2019). MMGCN: Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video. Proceedings of the 27th ACM International Conference on Multimedia (MM '19), 1437–1445.
Zhang, C., et al. (2021). Mining Latent Structures for Multimedia Recommendation. Proceedings of the 29th ACM International Conference on Multimedia (MM '21).
Liang, D., Krishnan, R. G., Hoffman, M. D., & Jebara, T. (2018). Variational Autoencoders for Collaborative Filtering. Proceedings of the 2018 World Wide Web Conference (WWW '18), 689–698.
Kingma, D. P., & Welling, M. (2014). Auto-Encoding Variational Bayes. International Conference on Learning Representations (ICLR).
Higgins, I., et al. (2017). beta-VAE: Learning Basic Visual Concepts with a Constrained Variational Framework. International Conference on Learning Representations (ICLR).
會議預告
12 月 19~20 日,AICon 2025 年度收官站在北京舉辦。現已開啟 9 折優惠。
兩天時間,聊最熱的 Agent、上下文工程、AI 產品創新等等話題,與頭部企業與創新團隊的專家深度交流落地經驗與思考。2025 年最后一場,不容錯過。
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.