<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      帝國理工大學提出DyMo:讓多模態模型學會選擇,突破模態缺失難題

      0
      分享至



      論文第一作者為帝國理工大學 BioMedIA 實驗室博士研究生杜思逸(個人主頁:https://siyi-wind.github.io),研究方向為多模態學習與醫療影像,曾在 ICLR、CVPR、ECCV、MICCAI 等學術會議上發表文章。

      通訊作者為帝國理工大學電子與電氣工程系和 I-X 系 的秦宸副教授(實驗室主頁:https://cq615.github.io)。她的研究方向涉及深度學習、醫學圖像分析、和計算機視覺。已在頂級同行評審工程和醫學成像期刊和會議論文集上發表了 70 多篇論文,并擔任 MICCAI 2022-24 的區域主席以及多個國際研討會的組織和計劃委員會成員。

      多模態學習(Multimodal Learning)正在推動 AI 在醫學影像、自動駕駛、人機交互等領域取得突破。通過融合圖像、文本、表格等多種模態,模型能夠獲得更全面的信息,從而顯著提升性能。

      然而,在真實世界中,一個關鍵問題幾乎不可避免:「模態缺失(Missing Modality)」。例如:醫學診斷中,部分檢查未完成;自動駕駛中,某些傳感器失效;多模態數據庫中,部分字段缺失。

      現有的不完整多模態學習方法通常采取兩種策略,要么直接丟棄缺失模態(無恢復方法,recovery-free),從而可能損失重要的任務相關信息;要么嘗試恢復缺失模態(recovery-based,基于恢復方法),但這又可能引入無關噪聲。我們將這一矛盾稱為「丟棄 - 插補困境」(discarding-imputation dilemma)

      為了解決這一問題,帝國理工大學的研究團隊引入一個全新的視角:不盲目丟棄,也不盲目使用恢復模態,而是在推理時動態識別并融合可靠的恢復模態,突破傳統「丟棄或插補」的二元限制。為此,作者設計了一種新的推理階段動態模態選擇框架DyMo

      DyMo 從信息論的角度出發,理論性地建立信息量和任務損失之間的聯系,提出用于指導模態選擇過程的獎勵函數。此外,作者還設計了一種靈活的多模態網絡結構,可兼容任意模態組合,并配套提出了專門的訓練策略,以學習魯棒的多模態表示。在多個自然圖像與醫學影像數據集上的實驗表明,DyMo 在各種模態缺失場景下均顯著優于現有方法。該工作已被機器學習頂級會議 ICLR 2026 接收。



      • 論文標題:Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification
      • 論文作者:Siyi Du, Xinzhe Luo, Declan P. O'Regan, Chen Qin
      • 作者單位:英國帝國理工大學
      • 論文鏈接:https://openreview.net/forum?id=PWhDUWRVhM
      • 代碼鏈接:https://github.com//siyi-wind/DyMo

      丟棄 vs 恢復的困境

      針對模態缺失問題,現有方法主要分為兩類:

      • 基于恢復的方法(recovery-based methods),這些方法先補全模態,再進行模態融合。
      • 無恢復方法(recovery-free methods),這類方法直接忽略缺失模態,僅使用可用模態進行預測。

      但在現實場景中,不同模態對任務的重要性往往存在顯著差異。這種差異主要來源于:(i)各模態包含的任務相關信息強度不同,(ii)各模態中包含的噪聲程度不同。



      圖 1。(a–b) “丟棄–插補困境” 的直觀證據:(a-1) vs (a-2) 無恢復方法(recovery-free methods)由于直接忽略缺失但高度任務相關的模態(如 {M, T}),只能學習到判別能力較弱的特征表示;(b) 基于恢復的方法(recovery-based methods)產生不可靠的重建結果,例如低保真重建(橙色)或語義錯位(黃色)。(c) DyMo 能夠通過動態融合任務相關且可靠的恢復模態來有效解決這一困境,并在多個數據集上顯著提升性能:如在 PolyMNIST、MST 和 CelebA 數據集上,分類準確率分別提高了 1.61%、1.68% 和 3.88%(見論文表 1)。

      當高度關鍵的模態缺失時,傳統的無需恢復方法只能依賴剩余信息較弱的模態,從而導致模型判別能力下降 (如圖 1(a))。雖然恢復方法試圖通過重建缺失模態來解決這一問題,但恢復質量往往不穩定(如圖 1(b)),可能生成低保真恢復(low-fidelity),即圖像模糊或失真,或者語義錯位(semantic misalignment):恢復內容與真實標簽不一致。將這些不可靠模態用于融合,反而會引入與任務無關的噪聲,干擾模型決策。

      DyMo:推理階段動態模態選擇框架

      圍繞「丟棄–插補困境」,作者提出了一種全新的解決思路 —— DyMo:一種推理階段動態模態選擇框架。其核心思想不是簡單「丟棄」或「強行恢復」,而是在推理階段自適應地選擇并融合可靠的恢復模態,最大化多模態任務相關信息(圖 1(c))。文章具體貢獻如下:

      • 首次系統性提出并刻畫「丟棄–插補困境」,引入動態神經網絡機制(dynamic neural networks)來打破這一結構性兩難。
      • 提出 DyMo,其核心創新包括:(1)基于多模態任務相關信息增益的動態模態選擇算法,(2)支持任意模態組合的多模態網絡結構,(3)專門的訓練策略讓模型能夠學習魯棒的潛在表示。
      • DyMo 在 5 個多樣化數據集(包括自然圖像和醫學影像)上達到 SOTA 性能。
      • DyMo 易于使用(可與多種模態恢復方法結合),且動態算法無需額外復雜結構開銷,方便部署。

      支持任意模態組合的網絡架構



      圖 2。用于任意模態的多模態網絡結構。

      DyMo 多模態網絡結構的目標是:無論輸入模態是否完整,都能生成可靠的預測結果,并為后續的動態模態選擇提供基礎。整體架構主要由三個部分組成:單模態編碼器進行特征提取;多模態 Transformer 建模跨模態關系;線性分類器使用 [CLS] token 的表示進行預測。

      方法核心:推理階段動態模態選擇與融合

      1. MTIR (multimodal task-relevant information reward)多模態任務相關信息獎勵: DyMo 的核心是一個獎勵函數: MTIR,用于估計每一個恢復模態帶來的多模態任務相關信息增益。更直觀的說:

      • reward > 0: 該模態提供了有用信息,應當融合
      • reward = 0: 該模態可能是低保真度恢復,信息很少,價值有限
      • reward < 0: 該模態可能是語義不一致恢復,反而會誤導模型





      從該公式中,可以得到一個關鍵的結論:降低任務損失,能夠提高任務相關信息的下界,因此,DyMo 使用一個簡單但有效的 proxy:

      用交叉熵損失的下降來估計任務相關信息增益

























      訓練策略





      輔助缺失不可知對比損失:旨在進一步增強類內聚類和類間分離。





      實驗結果

      作者使用 5 個不同的數據集(包含圖像,文本,表格模態)進行實驗,包括三個模擬數據集:PolyMNIST, MST, CelebA,和兩個大的真實數據集:自然圖像 - 表格數據集 DVM 和醫學圖像 - 表格數據集 UK Biobank (UKBB)。

      對于 DyMo 中的恢復方法,三個模擬數據集使用 VAE 類方法,兩個真實數據集使用 MAE 類方法。在消融實驗部分作者還包含了更多的恢復方法。模型在完整的數據集上進行訓練,并在各種缺失場景下進行評估:(i)對于 PolyMNIST,作者設置隨機缺失一定比例的模態; (ii) 對于 MST 和 CelebA,作者測試了缺失模式的不同組合; (iii) 對于 DVM 和 UKBB,作者評估了全表格和表格內(即模態內)缺失。

      DyMo 超越過去的先進模型

      DyMo 與先進的動態 / 靜態模態融合方法,基于恢復的方法,和無恢復方法進行比較。實驗結果表明,DyMo 在缺失模態場景下實現了巨大的性能飛躍,特別是在嚴重模態缺失場景。比如,在 PolyMNIST 數據集上,當 80% 模態缺失時,DyMo 相比最先進動態融合方法,準確率提升高達13.12%,展現出極強的魯棒性。

      此外,實驗還顯示了「丟棄 - 插補困境」的存在:(1)無恢復方法在高度任務相關模態缺失時會出現顯著性能下降。例如,在 MST 數據集上,當缺失模態為 {M, T} 而非 {S, T} 時,MUSE 的分類準確率下降了高達 61.18%。(2)基于恢復的方法在嚴重模態缺失場景下同樣面臨挑戰。例如,在 PolyMNIST 數據集上,當缺失率從 η = 0 增加到 η = 0.8 時,OnlineMAE 的準確率下降了 9.91%,表明恢復過程中生成了不可靠的模態。相比現有方法,DyMo 能夠有效突破這一困境,在各種嚴重模態缺失場景下均取得顯著性能優勢。



      圖 3。和靜態 / 動態模態融合方法比較。



      圖 4。和無恢復方法,基于恢復方法比較。

      可視化與樣例分析

      作者的隱層特征表示可視化和樣例分析展示了 DyMo 能夠有效選擇可靠的恢復模態,并提升模型性能。



      圖 5。DyMo 在 MST 數據集上的隱層特征表示 t-SNE 可視化,對比了不同模態使用策略的效果:(a-1) 僅使用原始可觀測模態;(a-2) 直接融合所有恢復模態(不加篩選);(a-3) 融合由 DyMo 自動選擇的恢復模態。



      圖 6。PolyMNIST 數據集上的案例分析:黃色表示原始可觀測模態,藍色表示由 DyMo 自動選擇用于融合的模態。

      討論與總結

      DyMo 提供了一個新的視角,問題不再是「如何恢復所有模態」,而是「哪些恢復模態值得信任」

      通過在推理階段動態選擇可靠模態,DyMo 成功突破了傳統「丟棄或插補」的二元限制,為不完整多模態學習提供了一種更加靈活和魯棒的解決方案。

      未來方向:

      • 動態選擇是否需要擴展到訓練階段
      • 如何擴展到分類以外的任務
      • 如何更加可靠和高效,或者與多模態大語言模型(MLLMs)進行結合

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      江西母女喝了3瓶牛奶,被老公數落2小時,眼神太嚇人,網友炸鍋

      江西母女喝了3瓶牛奶,被老公數落2小時,眼神太嚇人,網友炸鍋

      青梅侃史啊
      2026-03-08 07:18:01
      大眾汽車集團2025年營業利潤腰斬 CEO:到2030年,在德國將削減約5萬個崗位

      大眾汽車集團2025年營業利潤腰斬 CEO:到2030年,在德國將削減約5萬個崗位

      紅星新聞
      2026-03-10 21:26:29
      WTT重慶冠軍賽:11日賽程公布,王楚欽首秀,陳垣宇挑戰雨果

      WTT重慶冠軍賽:11日賽程公布,王楚欽首秀,陳垣宇挑戰雨果

      乒談
      2026-03-10 23:50:59
      人沒了膽囊,身體會有什么變化?4種疾病或會找上門,能不切別切

      人沒了膽囊,身體會有什么變化?4種疾病或會找上門,能不切別切

      醫學原創故事會
      2026-03-10 19:46:13
      2026年就業有多難,有HR一個崗位放上去沒多久,上百人就來咨詢了

      2026年就業有多難,有HR一個崗位放上去沒多久,上百人就來咨詢了

      映射生活的身影
      2026-03-10 17:05:43
      特朗普稱不會接受哈梅內伊兒子擔任伊朗最高領袖,中方表態

      特朗普稱不會接受哈梅內伊兒子擔任伊朗最高領袖,中方表態

      環球網資訊
      2026-03-10 15:29:22
      在醫院你遭遇過最羞恥的事是什么?網友:一個比一個炸裂啊

      在醫院你遭遇過最羞恥的事是什么?網友:一個比一個炸裂啊

      解讀熱點事件
      2026-02-04 00:05:07
      全行業被嚇醒!AI短劇神話,原來是編出來的?

      全行業被嚇醒!AI短劇神話,原來是編出來的?

      魏家東
      2026-03-10 13:12:24
      cba八場賽事同日開打:遼寧vs深圳,上海戰北控,江蘇遇山東

      cba八場賽事同日開打:遼寧vs深圳,上海戰北控,江蘇遇山東

      李帕在北漂
      2026-03-11 05:58:22
      一種新型的異性關系,正在中年男女間悄然流行:你知我心我知你意

      一種新型的異性關系,正在中年男女間悄然流行:你知我心我知你意

      楓紅染山徑
      2026-02-26 00:12:30
      生死未卜!以軍空襲直指伊朗新最高領袖穆杰塔巴

      生死未卜!以軍空襲直指伊朗新最高領袖穆杰塔巴

      老馬拉車莫少裝
      2026-03-10 12:51:31
      一張圖看懂:穆杰塔巴有哪些親屬在美以襲擊中喪生

      一張圖看懂:穆杰塔巴有哪些親屬在美以襲擊中喪生

      網易新聞出品
      2026-03-09 22:07:03
      德容恩:拜仁實在太強了,我們本該回收打反擊

      德容恩:拜仁實在太強了,我們本該回收打反擊

      懂球帝
      2026-03-11 06:54:13
      國乒女單首日1勝1負,'抗日英雄'倒下朱雨玲晉級16強

      國乒女單首日1勝1負,'抗日英雄'倒下朱雨玲晉級16強

      余憁搞笑段子
      2026-03-11 06:17:08
      格林:聯盟中我最喜歡防杜蘭特 他是我遇到過最難防守的球員

      格林:聯盟中我最喜歡防杜蘭特 他是我遇到過最難防守的球員

      羅說NBA
      2026-03-11 06:27:19
      善惡到頭終有報?57歲央視女主持王小丫,已走上另一條大路

      善惡到頭終有報?57歲央視女主持王小丫,已走上另一條大路

      妙知
      2026-01-13 11:55:41
      炸了水廠還甩鍋?阿聯酋罕見回懟以色列:我們有膽做就有膽認

      炸了水廠還甩鍋?阿聯酋罕見回懟以色列:我們有膽做就有膽認

      回京歷史夢
      2026-03-10 11:54:42
      梁山上唯一沒有朋友的好漢:無人與他玩,就算生病到死都沒人問津

      梁山上唯一沒有朋友的好漢:無人與他玩,就算生病到死都沒人問津

      銘記歷史呀
      2026-03-08 14:05:52
      看了鴇鳥怎么交配,才知道古代青樓的老板娘,為何叫“老鴇”!

      看了鴇鳥怎么交配,才知道古代青樓的老板娘,為何叫“老鴇”!

      米果說識
      2026-03-06 22:02:30
      伊朗開出停火首要條件,特朗普宣告:戰爭已基本結束了

      伊朗開出停火首要條件,特朗普宣告:戰爭已基本結束了

      琴琴有氧運動
      2026-03-11 06:16:48
      2026-03-11 07:19:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12467文章數 142581關注度
      往期回顧 全部

      科技要聞

      全民"養蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      伊朗新最高領袖在襲擊中受傷未公開發表講話 官方回應

      頭條要聞

      伊朗新最高領袖在襲擊中受傷未公開發表講話 官方回應

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      《逐玉》注水風波升級!315評論區淪陷

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      旅游
      時尚
      房產
      數碼
      軍事航空

      旅游要聞

      公園里的CBD!解碼生態、經濟同頻躍升的“天河范式”

      看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質

      房產要聞

      信號!千億巨頭入局,三亞開啟新一輪大征拆!

      數碼要聞

      蘋果iPhone17e體驗:加量不加價,值不值得入手呢?

      軍事要聞

      剛說完戰爭很快結束 特朗普改口

      無障礙瀏覽 進入關懷版