網易首頁 > 網易號 > 正文申請入駐

帝國理工大學提出DyMo：讓多模態模型學會選擇，突破模態缺失難題

2026-03-09 11:38:34　來源: 機器之心Pro

河北舉報

分享至

論文第一作者為帝國理工大學 BioMedIA 實驗室博士研究生杜思逸（個人主頁：https://siyi-wind.github.io），研究方向為多模態學習與醫療影像，曾在 ICLR、CVPR、ECCV、MICCAI 等學術會議上發表文章。

通訊作者為帝國理工大學電子與電氣工程系和 I-X 系的秦宸副教授（實驗室主頁：https://cq615.github.io）。她的研究方向涉及深度學習、醫學圖像分析、和計算機視覺。已在頂級同行評審工程和醫學成像期刊和會議論文集上發表了 70 多篇論文，并擔任 MICCAI 2022-24 的區域主席以及多個國際研討會的組織和計劃委員會成員。

多模態學習（Multimodal Learning）正在推動 AI 在醫學影像、自動駕駛、人機交互等領域取得突破。通過融合圖像、文本、表格等多種模態，模型能夠獲得更全面的信息，從而顯著提升性能。

然而，在真實世界中，一個關鍵問題幾乎不可避免：「模態缺失（Missing Modality）」。例如：醫學診斷中，部分檢查未完成；自動駕駛中，某些傳感器失效；多模態數據庫中，部分字段缺失。

現有的不完整多模態學習方法通常采取兩種策略，要么直接丟棄缺失模態（無恢復方法，recovery-free），從而可能損失重要的任務相關信息；要么嘗試恢復缺失模態（recovery-based，基于恢復方法），但這又可能引入無關噪聲。我們將這一矛盾稱為「丟棄 - 插補困境」（discarding-imputation dilemma）

為了解決這一問題，帝國理工大學的研究團隊引入一個全新的視角：不盲目丟棄，也不盲目使用恢復模態，而是在推理時動態識別并融合可靠的恢復模態，突破傳統「丟棄或插補」的二元限制。為此，作者設計了一種新的推理階段動態模態選擇框架DyMo

DyMo 從信息論的角度出發，理論性地建立信息量和任務損失之間的聯系，提出用于指導模態選擇過程的獎勵函數。此外，作者還設計了一種靈活的多模態網絡結構，可兼容任意模態組合，并配套提出了專門的訓練策略，以學習魯棒的多模態表示。在多個自然圖像與醫學影像數據集上的實驗表明，DyMo 在各種模態缺失場景下均顯著優于現有方法。該工作已被機器學習頂級會議 ICLR 2026 接收。

論文標題：Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification
論文作者：Siyi Du, Xinzhe Luo, Declan P. O'Regan, Chen Qin
作者單位：英國帝國理工大學
論文鏈接：https://openreview.net/forum?id=PWhDUWRVhM
代碼鏈接：https://github.com//siyi-wind/DyMo

丟棄 vs 恢復的困境

針對模態缺失問題，現有方法主要分為兩類：

基于恢復的方法（recovery-based methods），這些方法先補全模態，再進行模態融合。
無恢復方法（recovery-free methods），這類方法直接忽略缺失模態，僅使用可用模態進行預測。

但在現實場景中，不同模態對任務的重要性往往存在顯著差異。這種差異主要來源于：（i）各模態包含的任務相關信息強度不同，（ii）各模態中包含的噪聲程度不同。

圖 1。(a–b) “丟棄–插補困境” 的直觀證據：(a-1) vs (a-2) 無恢復方法（recovery-free methods）由于直接忽略缺失但高度任務相關的模態（如 {M, T}），只能學習到判別能力較弱的特征表示；(b) 基于恢復的方法（recovery-based methods）產生不可靠的重建結果，例如低保真重建（橙色）或語義錯位（黃色）。(c) DyMo 能夠通過動態融合任務相關且可靠的恢復模態來有效解決這一困境，并在多個數據集上顯著提升性能：如在 PolyMNIST、MST 和 CelebA 數據集上，分類準確率分別提高了 1.61%、1.68% 和 3.88%（見論文表 1）。

當高度關鍵的模態缺失時，傳統的無需恢復方法只能依賴剩余信息較弱的模態，從而導致模型判別能力下降（如圖 1（a））。雖然恢復方法試圖通過重建缺失模態來解決這一問題，但恢復質量往往不穩定（如圖 1（b）），可能生成低保真恢復（low-fidelity），即圖像模糊或失真，或者語義錯位（semantic misalignment）：恢復內容與真實標簽不一致。將這些不可靠模態用于融合，反而會引入與任務無關的噪聲，干擾模型決策。

DyMo：推理階段動態模態選擇框架

圍繞「丟棄–插補困境」，作者提出了一種全新的解決思路 —— DyMo：一種推理階段動態模態選擇框架。其核心思想不是簡單「丟棄」或「強行恢復」，而是在推理階段自適應地選擇并融合可靠的恢復模態，最大化多模態任務相關信息（圖 1（c））。文章具體貢獻如下：

首次系統性提出并刻畫「丟棄–插補困境」，引入動態神經網絡機制（dynamic neural networks）來打破這一結構性兩難。
提出 DyMo，其核心創新包括：（1）基于多模態任務相關信息增益的動態模態選擇算法，（2）支持任意模態組合的多模態網絡結構，（3）專門的訓練策略讓模型能夠學習魯棒的潛在表示。
DyMo 在 5 個多樣化數據集（包括自然圖像和醫學影像）上達到 SOTA 性能。
DyMo 易于使用（可與多種模態恢復方法結合），且動態算法無需額外復雜結構開銷，方便部署。

支持任意模態組合的網絡架構

圖 2。用于任意模態的多模態網絡結構。

DyMo 多模態網絡結構的目標是：無論輸入模態是否完整，都能生成可靠的預測結果，并為后續的動態模態選擇提供基礎。整體架構主要由三個部分組成：單模態編碼器進行特征提取；多模態 Transformer 建模跨模態關系；線性分類器使用 [CLS] token 的表示進行預測。

方法核心：推理階段動態模態選擇與融合

1. MTIR （multimodal task-relevant information reward）多模態任務相關信息獎勵: DyMo 的核心是一個獎勵函數： MTIR，用于估計每一個恢復模態帶來的多模態任務相關信息增益。更直觀的說：

reward > 0: 該模態提供了有用信息，應當融合
reward = 0: 該模態可能是低保真度恢復，信息很少，價值有限
reward < 0: 該模態可能是語義不一致恢復，反而會誤導模型

從該公式中，可以得到一個關鍵的結論：降低任務損失，能夠提高任務相關信息的下界，因此，DyMo 使用一個簡單但有效的 proxy：

用交叉熵損失的下降來估計任務相關信息增益

訓練策略

輔助缺失不可知對比損失：旨在進一步增強類內聚類和類間分離。

實驗結果

作者使用 5 個不同的數據集（包含圖像，文本，表格模態）進行實驗，包括三個模擬數據集：PolyMNIST, MST, CelebA，和兩個大的真實數據集：自然圖像 - 表格數據集 DVM 和醫學圖像 - 表格數據集 UK Biobank (UKBB)。

對于 DyMo 中的恢復方法，三個模擬數據集使用 VAE 類方法，兩個真實數據集使用 MAE 類方法。在消融實驗部分作者還包含了更多的恢復方法。模型在完整的數據集上進行訓練，并在各種缺失場景下進行評估：（i）對于 PolyMNIST，作者設置隨機缺失一定比例的模態； (ii) 對于 MST 和 CelebA，作者測試了缺失模式的不同組合； (iii) 對于 DVM 和 UKBB，作者評估了全表格和表格內（即模態內）缺失。

DyMo 超越過去的先進模型

DyMo 與先進的動態 / 靜態模態融合方法，基于恢復的方法，和無恢復方法進行比較。實驗結果表明，DyMo 在缺失模態場景下實現了巨大的性能飛躍，特別是在嚴重模態缺失場景。比如，在 PolyMNIST 數據集上，當 80% 模態缺失時，DyMo 相比最先進動態融合方法，準確率提升高達13.12%，展現出極強的魯棒性。

此外，實驗還顯示了「丟棄 - 插補困境」的存在：（1）無恢復方法在高度任務相關模態缺失時會出現顯著性能下降。例如，在 MST 數據集上，當缺失模態為 {M, T} 而非 {S, T} 時，MUSE 的分類準確率下降了高達 61.18%。（2）基于恢復的方法在嚴重模態缺失場景下同樣面臨挑戰。例如，在 PolyMNIST 數據集上，當缺失率從 η = 0 增加到 η = 0.8 時，OnlineMAE 的準確率下降了 9.91%，表明恢復過程中生成了不可靠的模態。相比現有方法，DyMo 能夠有效突破這一困境，在各種嚴重模態缺失場景下均取得顯著性能優勢。

圖 3。和靜態 / 動態模態融合方法比較。

圖 4。和無恢復方法，基于恢復方法比較。

可視化與樣例分析

作者的隱層特征表示可視化和樣例分析展示了 DyMo 能夠有效選擇可靠的恢復模態，并提升模型性能。

圖 5。DyMo 在 MST 數據集上的隱層特征表示 t-SNE 可視化，對比了不同模態使用策略的效果：(a-1) 僅使用原始可觀測模態；(a-2) 直接融合所有恢復模態（不加篩選）；(a-3) 融合由 DyMo 自動選擇的恢復模態。

圖 6。PolyMNIST 數據集上的案例分析：黃色表示原始可觀測模態，藍色表示由 DyMo 自動選擇用于融合的模態。

討論與總結

DyMo 提供了一個新的視角，問題不再是「如何恢復所有模態」，而是「哪些恢復模態值得信任」

通過在推理階段動態選擇可靠模態，DyMo 成功突破了傳統「丟棄或插補」的二元限制，為不完整多模態學習提供了一種更加靈活和魯棒的解決方案。

未來方向：

動態選擇是否需要擴展到訓練階段
如何擴展到分類以外的任務
如何更加可靠和高效，或者與多模態大語言模型（MLLMs）進行結合

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.