![]()
在數據類型日益多元化的時代背景下,現實世界中的人、事、物皆可通過多種模態進行記錄與呈現。在此趨勢推動下,多模態知識圖譜(MMKG)[1,2] 作為一種集成文本、圖像、結構化關系等多模態數據的信息載體,能夠高效、全面地為各類多模態下游應用提供數據支撐。作為構建知識圖譜的核心技術,實體對齊致力于從不同來源的圖譜中識別同一實體,從而建立跨圖譜關聯并促進圖譜融合。
然而,現實生活中,大規模知識圖譜的關聯與融合非一蹴而就,往往面臨著噪聲關聯和潛隱關聯的雙重挑戰。如圖一 (a) 和 (c) 所示,試想以下場景:
- 噪聲關聯:當你試圖為「海王」杰森?莫瑪關聯圖像,卻因為極高的視覺相似度,將一張中國演員徐錦江的照片進行了上傳;當你認為名字高度相似的 Mr. & Mrs. Smith 和 Will Smith and Mrs. Smith 是同一個實體時,其實是電影《史密斯夫婦》與美國明星「威爾?史密斯夫婦」。
- 潛隱關聯:當模型想找到著名足球運動員 C 羅,卻發現搜索到實體的圖像竟然是「葡萄牙國旗」,于是認為并不是想查詢的「人」。殊不知,這正是 C 羅的國籍。
近日,來自四川大學的研究團隊揭示了上述現象在大規模知識圖譜中廣泛存在,并有效緩解了噪聲關聯和潛隱關聯對實體對齊的負面影響,有望推動大規模知識圖譜的關聯與融合。目前,該論文被機器學習頂會 ICLR 2026 接收為了 Oral。
![]()
- 論文標題:Learning with Dual-level Noisy Correspondence for Multi-modal Entity Alignment
- 論文鏈接:https://openreview.net/forum?id=mytIKuRsSE
- 代碼鏈接:https://github.com/XLearning-SCU/2026-ICLR-RULE
- 噪聲關聯學習倉庫:https://github.com/XLearning-SCU/Awesome-Noisy-Correspondence
背景與挑戰
多模態實體對齊(MMEA)[3,4] 旨在識別異構知識圖譜中的同一實體,而圖譜中的每個實體都與各種屬性(如結構化信息、圖像和文本描述)相關聯。為建立異構知識圖譜的關聯,現有方法首先會根據實體內關聯(實體 - 屬性關聯)來融合多模態屬性,以獲取實體表征,然后根據跨圖譜關聯(實體 - 實體關聯,屬性 - 屬性關聯),進行實體層面和屬性層面的跨圖譜對齊來消除差異。
然而,現有方法通常假設實體內和跨圖譜的關聯都是正確的,忽略了知識圖譜中廣泛存在的噪聲關聯問題。據統計,部分基準測試中有超過 50% 的實體受噪聲關聯問題影響。如圖 1 (b) 所示,噪聲關聯不僅會破壞實體內的屬性融合,還會誤導跨圖譜對齊過程,這兩方面因素都將導致模型性能顯著下降。
除了噪聲關聯現象外,現有的多模態實體對齊模型通常僅依賴淺層相似度來判斷關聯程度,忽略了模型推理時往往存在看似不同但本質相同的屬性,如圖 1 (c) 所示,這些潛隱關聯往往會影響實體對齊的準確性。
![]()
圖 1:噪聲關聯和潛隱關聯示意圖,以及二者相關的觀察實驗。
針對噪聲關聯和潛隱關聯挑戰,本文提出了 RULE,主要貢獻如下:
- 揭示了多模態知識圖譜中的噪聲關聯問題,從多屬性融合和跨圖譜對齊兩個層面探索了噪聲關聯的負面影響。
- 在測試時引入關聯推理模塊,來確保更準確的實體識別,率先在實體對齊領域探索增強測試時魯棒性。
- 為檢驗現有方法的魯棒性建立了統一的基準測試,涵蓋 5 個廣泛應用的數據集。
方法
本文設計了一系列方法來緩解噪聲關聯和潛隱關聯對多模態實體對齊模型的負面影響。具體而言,團隊首先提出了統一的準則來量化實體內和跨圖譜關聯的可靠度,在訓練時采用魯棒的多屬性融合和跨圖譜對齊策略來緩解噪聲關聯的負面影響,在測試時使用了關聯推理模塊來挖掘潛隱關聯,最終實現更準確的實體對齊。
![]()
圖 2:RULE 的框架圖
1) 可靠度建模
![]()
![]()
![]()
![]()
![]()
2) 魯棒的跨圖譜對齊和多屬性融合
基于建模的關聯可靠度,團隊提出了魯棒的跨圖譜對齊和多屬性融合,用于緩解噪聲關聯在這兩方面的負面影響。
魯棒的跨圖譜對齊:如圖 2 所示,RULE 采用基于 Dirichlet 分布的證據學習 [5] 來優化跨圖譜關聯,
![]()
![]()
魯棒的多屬性融合:在可靠度建模部分,團隊量化了實體 / 屬性對的可靠度,接下來需要估計實體內關聯的可靠度。團隊觀察到,對于正確的實體 - 實體關聯而言,錯誤的實體 - 屬性關聯一定會導致錯誤的屬性 - 屬性關聯。因此,跨圖譜屬性 - 屬性關聯的可靠度能夠用于識別錯誤的實體 - 屬性關聯。對于正確的實體 - 實體關聯而言,團隊采用如下的魯棒多屬性融合方式來獲取實體表征,
![]()
![]()
3) 測試時關聯推理
為了挖掘看似不同但本質相同的屬性,團隊提出了測試時關聯推理模塊,利用多模態大模型(MLLM)的內蘊知識來矯正屬性 - 屬性關聯,進而提升跨圖譜實體對齊的準確率。具體而言,MLLM 推理得到的對齊結果如下:
![]()
![]()
實驗結果
本文提出的 RULE 旨在克服多模態實體對齊中的噪聲關聯和潛隱關聯挑戰。為了更好地研究 RULE 的魯棒性,團隊參考噪聲關聯 [6,7]/ 標簽 [8] 學習領域廣泛采用的策略,通過人工注入噪聲的方式構建了更加嚴苛的評估環境。
具體而言,團隊在以下三個維度注入人工噪聲:
- 實體 - 實體噪聲關聯:在已對齊的實體對中,隨機選擇一個實體替換為不同實體,破壞原始對齊關系;
- 實體 - 屬性噪聲關聯:將當前實體的視覺和文本屬性隨機重新分配給不同實體,模擬屬性標注錯誤;
- 屬性 - 屬性噪聲關聯:對視覺和文本屬性注入噪聲,模擬屬性層面的噪聲干擾。
![]()
表 1:不使用名字屬性時的性能比較
![]()
表 2:所有屬性時的性能比較
部分實驗結果如下:
根據表 1-2,本文提出的 RULE 在不同噪聲水平下均表現出卓越的魯棒性,全面領先于現有 SOTA 方法,這說明 RULE 能夠有效地緩解噪聲和潛隱關聯問題。即使在不額外注入噪聲的情況下,RULE 依然實現了大幅性能提升,這驗證了現實世界數據集中普遍存在噪聲和潛隱關聯問題。
![]()
圖 3 跨圖譜關聯的可靠度分布
![]()
圖 4 實體內關聯的可靠度可視化
![]()
圖 5 測試時關聯推理模塊的可視化
根據圖 3-4,提出的可靠度量化策略不僅能夠有效區分跨圖譜的正確關聯和噪聲關聯,而且能夠識別出不可靠的屬性,從而促進魯棒跨圖譜對齊和多屬性融合。此外,根據圖 5,測試時關聯推理模塊能夠有效挖掘出圖像屬性之間的潛在關聯,從而提升實體對齊的準確率。
總結與展望
本文提出的 RULE 探索了多模態實體對齊任務中的噪聲關聯和潛隱關聯問題,從多屬性融合、跨圖譜對齊和測試時推理三個層面揭示了兩者的負面影響,并進一步構建了評估方法魯棒性的基準測試,為后續研究提供了實驗觀察和評估體系。
值得注意的是,本工作是將噪聲關聯學習范式引入多模態實體對齊任務上的一次成功嘗試,拓展了噪聲關聯定義的外延,即實體內和跨圖譜兩個層面的噪聲關聯。
此外,本工作揭示了現有檢索 / 對齊方法的固有缺陷,即依賴特征相似性進行匹配,未能深入挖掘實體間的潛在關系,特別是潛隱關聯幾乎存在于所有的多模態任務中,而團隊提出的關聯推理機制有望為相關研究帶來啟發。
參考文獻
[1] Ye Liu, Hui Li, Alberto Garcia-Duran, Mathias Niepert, Daniel Onoro-Rubio, and David S Rosenblum. Mmkg: Multi-modal knowledge graphs. In ESWC, 2019.
[2] Shichao Pei, Lu Yu, Guoxian Yu, and Xiangliang Zhang. Rea: Robust cross-lingual entity alignment between knowledge graphs. In KDD, 2020.
[3] Liyi Chen, Ying Sun, Shengzhe Zhang, Yuyang Ye, Wei Wu, and Hui Xiong. Tackling uncertain correspondences for multi-modal entity alignment. NeurIS, 2024.
[4] Zhuo Chen, Jiaoyan Chen, Wen Zhang, Lingbing Guo, Yin Fang, Yufeng Huang, Yichi Zhang, Yuxia Geng, Jeff Z Pan, Wenting Song, et al. Meaformer: Multi-modal entity alignment transformer for meta modality hybrid. In ACM Multimedia, 2023a.
[5] Murat Sensoy, Lance Kaplan, and Melih Kandemir. Evidential deep learning to quantify classification uncertainty. In NeurIPS, 2018.
[6] Mouxing Yang, Zhenyu Huang, Peng Hu, Taihao Li, Jiancheng Lv, and Xi Peng. Learning with twin noisy labels for visible-infrared person re-identification. In CVPR, 2022.
[7] Zhenyu Huang, Mouxing Yang, Xinyan Xiao, Peng Hu, and Xi Peng. Noise-robust vision-language pre-training with positive-negative learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024b.
[8] Nagarajan Natarajan, Inderjit S Dhillon, Pradeep K Ravikumar, and Ambuj Tewari. Learning with noisy labels. In NeurIPS, 2013.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.