![]()
論文第一作者為帝國理工大學 BioMedIA 實驗室博士研究生杜思逸(個人主頁:https://siyi-wind.github.io),研究方向為多模態學習與醫療影像,曾在 ICLR、CVPR、ECCV、MICCAI 等學術會議上發表文章。
通訊作者為帝國理工大學電子與電氣工程系和 I-X 系 的秦宸副教授(實驗室主頁:https://cq615.github.io)。她的研究方向涉及深度學習、醫學圖像分析、和計算機視覺。已在頂級同行評審工程和醫學成像期刊和會議論文集上發表了 70 多篇論文,并擔任 MICCAI 2022-24 的區域主席以及多個國際研討會的組織和計劃委員會成員。
多模態學習(Multimodal Learning)正在推動 AI 在醫學影像、自動駕駛、人機交互等領域取得突破。通過融合圖像、文本、表格等多種模態,模型能夠獲得更全面的信息,從而顯著提升性能。
然而,在真實世界中,一個關鍵問題幾乎不可避免:「模態缺失(Missing Modality)」。例如:醫學診斷中,部分檢查未完成;自動駕駛中,某些傳感器失效;多模態數據庫中,部分字段缺失。
現有的不完整多模態學習方法通常采取兩種策略,要么直接丟棄缺失模態(無恢復方法,recovery-free),從而可能損失重要的任務相關信息;要么嘗試恢復缺失模態(recovery-based,基于恢復方法),但這又可能引入無關噪聲。我們將這一矛盾稱為「丟棄 - 插補困境」(discarding-imputation dilemma)
為了解決這一問題,帝國理工大學的研究團隊引入一個全新的視角:不盲目丟棄,也不盲目使用恢復模態,而是在推理時動態識別并融合可靠的恢復模態,突破傳統「丟棄或插補」的二元限制。為此,作者設計了一種新的推理階段動態模態選擇框架DyMo
DyMo 從信息論的角度出發,理論性地建立信息量和任務損失之間的聯系,提出用于指導模態選擇過程的獎勵函數。此外,作者還設計了一種靈活的多模態網絡結構,可兼容任意模態組合,并配套提出了專門的訓練策略,以學習魯棒的多模態表示。在多個自然圖像與醫學影像數據集上的實驗表明,DyMo 在各種模態缺失場景下均顯著優于現有方法。該工作已被機器學習頂級會議 ICLR 2026 接收。
![]()
- 論文標題:Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification
- 論文作者:Siyi Du, Xinzhe Luo, Declan P. O'Regan, Chen Qin
- 作者單位:英國帝國理工大學
- 論文鏈接:https://openreview.net/forum?id=PWhDUWRVhM
- 代碼鏈接:https://github.com//siyi-wind/DyMo
丟棄 vs 恢復的困境
針對模態缺失問題,現有方法主要分為兩類:
- 基于恢復的方法(recovery-based methods),這些方法先補全模態,再進行模態融合。
- 無恢復方法(recovery-free methods),這類方法直接忽略缺失模態,僅使用可用模態進行預測。
但在現實場景中,不同模態對任務的重要性往往存在顯著差異。這種差異主要來源于:(i)各模態包含的任務相關信息強度不同,(ii)各模態中包含的噪聲程度不同。
![]()
圖 1。(a–b) “丟棄–插補困境” 的直觀證據:(a-1) vs (a-2) 無恢復方法(recovery-free methods)由于直接忽略缺失但高度任務相關的模態(如 {M, T}),只能學習到判別能力較弱的特征表示;(b) 基于恢復的方法(recovery-based methods)產生不可靠的重建結果,例如低保真重建(橙色)或語義錯位(黃色)。(c) DyMo 能夠通過動態融合任務相關且可靠的恢復模態來有效解決這一困境,并在多個數據集上顯著提升性能:如在 PolyMNIST、MST 和 CelebA 數據集上,分類準確率分別提高了 1.61%、1.68% 和 3.88%(見論文表 1)。
當高度關鍵的模態缺失時,傳統的無需恢復方法只能依賴剩余信息較弱的模態,從而導致模型判別能力下降 (如圖 1(a))。雖然恢復方法試圖通過重建缺失模態來解決這一問題,但恢復質量往往不穩定(如圖 1(b)),可能生成低保真恢復(low-fidelity),即圖像模糊或失真,或者語義錯位(semantic misalignment):恢復內容與真實標簽不一致。將這些不可靠模態用于融合,反而會引入與任務無關的噪聲,干擾模型決策。
DyMo:推理階段動態模態選擇框架
圍繞「丟棄–插補困境」,作者提出了一種全新的解決思路 —— DyMo:一種推理階段動態模態選擇框架。其核心思想不是簡單「丟棄」或「強行恢復」,而是在推理階段自適應地選擇并融合可靠的恢復模態,最大化多模態任務相關信息(圖 1(c))。文章具體貢獻如下:
- 首次系統性提出并刻畫「丟棄–插補困境」,引入動態神經網絡機制(dynamic neural networks)來打破這一結構性兩難。
- 提出 DyMo,其核心創新包括:(1)基于多模態任務相關信息增益的動態模態選擇算法,(2)支持任意模態組合的多模態網絡結構,(3)專門的訓練策略讓模型能夠學習魯棒的潛在表示。
- DyMo 在 5 個多樣化數據集(包括自然圖像和醫學影像)上達到 SOTA 性能。
- DyMo 易于使用(可與多種模態恢復方法結合),且動態算法無需額外復雜結構開銷,方便部署。
支持任意模態組合的網絡架構
![]()
圖 2。用于任意模態的多模態網絡結構。
DyMo 多模態網絡結構的目標是:無論輸入模態是否完整,都能生成可靠的預測結果,并為后續的動態模態選擇提供基礎。整體架構主要由三個部分組成:單模態編碼器進行特征提取;多模態 Transformer 建模跨模態關系;線性分類器使用 [CLS] token 的表示進行預測。
方法核心:推理階段動態模態選擇與融合
1. MTIR (multimodal task-relevant information reward)多模態任務相關信息獎勵: DyMo 的核心是一個獎勵函數: MTIR,用于估計每一個恢復模態帶來的多模態任務相關信息增益。更直觀的說:
- reward > 0: 該模態提供了有用信息,應當融合
- reward = 0: 該模態可能是低保真度恢復,信息很少,價值有限
- reward < 0: 該模態可能是語義不一致恢復,反而會誤導模型
![]()
![]()
從該公式中,可以得到一個關鍵的結論:降低任務損失,能夠提高任務相關信息的下界,因此,DyMo 使用一個簡單但有效的 proxy:
用交叉熵損失的下降來估計任務相關信息增益
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
訓練策略
![]()
![]()
輔助缺失不可知對比損失:旨在進一步增強類內聚類和類間分離。
![]()
![]()
實驗結果
作者使用 5 個不同的數據集(包含圖像,文本,表格模態)進行實驗,包括三個模擬數據集:PolyMNIST, MST, CelebA,和兩個大的真實數據集:自然圖像 - 表格數據集 DVM 和醫學圖像 - 表格數據集 UK Biobank (UKBB)。
對于 DyMo 中的恢復方法,三個模擬數據集使用 VAE 類方法,兩個真實數據集使用 MAE 類方法。在消融實驗部分作者還包含了更多的恢復方法。模型在完整的數據集上進行訓練,并在各種缺失場景下進行評估:(i)對于 PolyMNIST,作者設置隨機缺失一定比例的模態; (ii) 對于 MST 和 CelebA,作者測試了缺失模式的不同組合; (iii) 對于 DVM 和 UKBB,作者評估了全表格和表格內(即模態內)缺失。
DyMo 超越過去的先進模型
DyMo 與先進的動態 / 靜態模態融合方法,基于恢復的方法,和無恢復方法進行比較。實驗結果表明,DyMo 在缺失模態場景下實現了巨大的性能飛躍,特別是在嚴重模態缺失場景。比如,在 PolyMNIST 數據集上,當 80% 模態缺失時,DyMo 相比最先進動態融合方法,準確率提升高達13.12%,展現出極強的魯棒性。
此外,實驗還顯示了「丟棄 - 插補困境」的存在:(1)無恢復方法在高度任務相關模態缺失時會出現顯著性能下降。例如,在 MST 數據集上,當缺失模態為 {M, T} 而非 {S, T} 時,MUSE 的分類準確率下降了高達 61.18%。(2)基于恢復的方法在嚴重模態缺失場景下同樣面臨挑戰。例如,在 PolyMNIST 數據集上,當缺失率從 η = 0 增加到 η = 0.8 時,OnlineMAE 的準確率下降了 9.91%,表明恢復過程中生成了不可靠的模態。相比現有方法,DyMo 能夠有效突破這一困境,在各種嚴重模態缺失場景下均取得顯著性能優勢。
![]()
圖 3。和靜態 / 動態模態融合方法比較。
![]()
圖 4。和無恢復方法,基于恢復方法比較。
可視化與樣例分析
作者的隱層特征表示可視化和樣例分析展示了 DyMo 能夠有效選擇可靠的恢復模態,并提升模型性能。
![]()
圖 5。DyMo 在 MST 數據集上的隱層特征表示 t-SNE 可視化,對比了不同模態使用策略的效果:(a-1) 僅使用原始可觀測模態;(a-2) 直接融合所有恢復模態(不加篩選);(a-3) 融合由 DyMo 自動選擇的恢復模態。
![]()
圖 6。PolyMNIST 數據集上的案例分析:黃色表示原始可觀測模態,藍色表示由 DyMo 自動選擇用于融合的模態。
討論與總結
DyMo 提供了一個新的視角,問題不再是「如何恢復所有模態」,而是「哪些恢復模態值得信任」
通過在推理階段動態選擇可靠模態,DyMo 成功突破了傳統「丟棄或插補」的二元限制,為不完整多模態學習提供了一種更加靈活和魯棒的解決方案。
未來方向:
- 動態選擇是否需要擴展到訓練階段
- 如何擴展到分類以外的任務
- 如何更加可靠和高效,或者與多模態大語言模型(MLLMs)進行結合
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.