![]()
在數(shù)據(jù)類型日益多元化的時(shí)代背景下,現(xiàn)實(shí)世界中的人、事、物皆可通過多種模態(tài)進(jìn)行記錄與呈現(xiàn)。在此趨勢推動下,多模態(tài)知識圖譜(MMKG)[1,2] 作為一種集成文本、圖像、結(jié)構(gòu)化關(guān)系等多模態(tài)數(shù)據(jù)的信息載體,能夠高效、全面地為各類多模態(tài)下游應(yīng)用提供數(shù)據(jù)支撐。作為構(gòu)建知識圖譜的核心技術(shù),實(shí)體對齊致力于從不同來源的圖譜中識別同一實(shí)體,從而建立跨圖譜關(guān)聯(lián)并促進(jìn)圖譜融合。
然而,現(xiàn)實(shí)生活中,大規(guī)模知識圖譜的關(guān)聯(lián)與融合非一蹴而就,往往面臨著噪聲關(guān)聯(lián)和潛隱關(guān)聯(lián)的雙重挑戰(zhàn)。如圖一 (a) 和 (c) 所示,試想以下場景:
- 噪聲關(guān)聯(lián):當(dāng)你試圖為「海王」杰森?莫瑪關(guān)聯(lián)圖像,卻因?yàn)闃O高的視覺相似度,將一張中國演員徐錦江的照片進(jìn)行了上傳;當(dāng)你認(rèn)為名字高度相似的 Mr. & Mrs. Smith 和 Will Smith and Mrs. Smith 是同一個實(shí)體時(shí),其實(shí)是電影《史密斯夫婦》與美國明星「威爾?史密斯夫婦」。
- 潛隱關(guān)聯(lián):當(dāng)模型想找到著名足球運(yùn)動員 C 羅,卻發(fā)現(xiàn)搜索到實(shí)體的圖像竟然是「葡萄牙國旗」,于是認(rèn)為并不是想查詢的「人」。殊不知,這正是 C 羅的國籍。
近日,來自四川大學(xué)的研究團(tuán)隊(duì)揭示了上述現(xiàn)象在大規(guī)模知識圖譜中廣泛存在,并有效緩解了噪聲關(guān)聯(lián)和潛隱關(guān)聯(lián)對實(shí)體對齊的負(fù)面影響,有望推動大規(guī)模知識圖譜的關(guān)聯(lián)與融合。目前,該論文被機(jī)器學(xué)習(xí)頂會 ICLR 2026 接收為了 Oral。
![]()
- 論文標(biāo)題:Learning with Dual-level Noisy Correspondence for Multi-modal Entity Alignment
- 論文鏈接:https://openreview.net/forum?id=mytIKuRsSE
- 代碼鏈接:https://github.com/XLearning-SCU/2026-ICLR-RULE
- 噪聲關(guān)聯(lián)學(xué)習(xí)倉庫:https://github.com/XLearning-SCU/Awesome-Noisy-Correspondence
背景與挑戰(zhàn)
多模態(tài)實(shí)體對齊(MMEA)[3,4] 旨在識別異構(gòu)知識圖譜中的同一實(shí)體,而圖譜中的每個實(shí)體都與各種屬性(如結(jié)構(gòu)化信息、圖像和文本描述)相關(guān)聯(lián)。為建立異構(gòu)知識圖譜的關(guān)聯(lián),現(xiàn)有方法首先會根據(jù)實(shí)體內(nèi)關(guān)聯(lián)(實(shí)體 - 屬性關(guān)聯(lián))來融合多模態(tài)屬性,以獲取實(shí)體表征,然后根據(jù)跨圖譜關(guān)聯(lián)(實(shí)體 - 實(shí)體關(guān)聯(lián),屬性 - 屬性關(guān)聯(lián)),進(jìn)行實(shí)體層面和屬性層面的跨圖譜對齊來消除差異。
然而,現(xiàn)有方法通常假設(shè)實(shí)體內(nèi)和跨圖譜的關(guān)聯(lián)都是正確的,忽略了知識圖譜中廣泛存在的噪聲關(guān)聯(lián)問題。據(jù)統(tǒng)計(jì),部分基準(zhǔn)測試中有超過 50% 的實(shí)體受噪聲關(guān)聯(lián)問題影響。如圖 1 (b) 所示,噪聲關(guān)聯(lián)不僅會破壞實(shí)體內(nèi)的屬性融合,還會誤導(dǎo)跨圖譜對齊過程,這兩方面因素都將導(dǎo)致模型性能顯著下降。
除了噪聲關(guān)聯(lián)現(xiàn)象外,現(xiàn)有的多模態(tài)實(shí)體對齊模型通常僅依賴淺層相似度來判斷關(guān)聯(lián)程度,忽略了模型推理時(shí)往往存在看似不同但本質(zhì)相同的屬性,如圖 1 (c) 所示,這些潛隱關(guān)聯(lián)往往會影響實(shí)體對齊的準(zhǔn)確性。
![]()
圖 1:噪聲關(guān)聯(lián)和潛隱關(guān)聯(lián)示意圖,以及二者相關(guān)的觀察實(shí)驗(yàn)。
針對噪聲關(guān)聯(lián)和潛隱關(guān)聯(lián)挑戰(zhàn),本文提出了 RULE,主要貢獻(xiàn)如下:
- 揭示了多模態(tài)知識圖譜中的噪聲關(guān)聯(lián)問題,從多屬性融合和跨圖譜對齊兩個層面探索了噪聲關(guān)聯(lián)的負(fù)面影響。
- 在測試時(shí)引入關(guān)聯(lián)推理模塊,來確保更準(zhǔn)確的實(shí)體識別,率先在實(shí)體對齊領(lǐng)域探索增強(qiáng)測試時(shí)魯棒性。
- 為檢驗(yàn)現(xiàn)有方法的魯棒性建立了統(tǒng)一的基準(zhǔn)測試,涵蓋 5 個廣泛應(yīng)用的數(shù)據(jù)集。
方法
本文設(shè)計(jì)了一系列方法來緩解噪聲關(guān)聯(lián)和潛隱關(guān)聯(lián)對多模態(tài)實(shí)體對齊模型的負(fù)面影響。具體而言,團(tuán)隊(duì)首先提出了統(tǒng)一的準(zhǔn)則來量化實(shí)體內(nèi)和跨圖譜關(guān)聯(lián)的可靠度,在訓(xùn)練時(shí)采用魯棒的多屬性融合和跨圖譜對齊策略來緩解噪聲關(guān)聯(lián)的負(fù)面影響,在測試時(shí)使用了關(guān)聯(lián)推理模塊來挖掘潛隱關(guān)聯(lián),最終實(shí)現(xiàn)更準(zhǔn)確的實(shí)體對齊。
![]()
圖 2:RULE 的框架圖
1) 可靠度建模
![]()
![]()
![]()
![]()
![]()
2) 魯棒的跨圖譜對齊和多屬性融合
基于建模的關(guān)聯(lián)可靠度,團(tuán)隊(duì)提出了魯棒的跨圖譜對齊和多屬性融合,用于緩解噪聲關(guān)聯(lián)在這兩方面的負(fù)面影響。
魯棒的跨圖譜對齊:如圖 2 所示,RULE 采用基于 Dirichlet 分布的證據(jù)學(xué)習(xí) [5] 來優(yōu)化跨圖譜關(guān)聯(lián),
![]()
![]()
魯棒的多屬性融合:在可靠度建模部分,團(tuán)隊(duì)量化了實(shí)體 / 屬性對的可靠度,接下來需要估計(jì)實(shí)體內(nèi)關(guān)聯(lián)的可靠度。團(tuán)隊(duì)觀察到,對于正確的實(shí)體 - 實(shí)體關(guān)聯(lián)而言,錯誤的實(shí)體 - 屬性關(guān)聯(lián)一定會導(dǎo)致錯誤的屬性 - 屬性關(guān)聯(lián)。因此,跨圖譜屬性 - 屬性關(guān)聯(lián)的可靠度能夠用于識別錯誤的實(shí)體 - 屬性關(guān)聯(lián)。對于正確的實(shí)體 - 實(shí)體關(guān)聯(lián)而言,團(tuán)隊(duì)采用如下的魯棒多屬性融合方式來獲取實(shí)體表征,
![]()
![]()
3) 測試時(shí)關(guān)聯(lián)推理
為了挖掘看似不同但本質(zhì)相同的屬性,團(tuán)隊(duì)提出了測試時(shí)關(guān)聯(lián)推理模塊,利用多模態(tài)大模型(MLLM)的內(nèi)蘊(yùn)知識來矯正屬性 - 屬性關(guān)聯(lián),進(jìn)而提升跨圖譜實(shí)體對齊的準(zhǔn)確率。具體而言,MLLM 推理得到的對齊結(jié)果如下:
![]()
![]()
實(shí)驗(yàn)結(jié)果
本文提出的 RULE 旨在克服多模態(tài)實(shí)體對齊中的噪聲關(guān)聯(lián)和潛隱關(guān)聯(lián)挑戰(zhàn)。為了更好地研究 RULE 的魯棒性,團(tuán)隊(duì)參考噪聲關(guān)聯(lián) [6,7]/ 標(biāo)簽 [8] 學(xué)習(xí)領(lǐng)域廣泛采用的策略,通過人工注入噪聲的方式構(gòu)建了更加嚴(yán)苛的評估環(huán)境。
具體而言,團(tuán)隊(duì)在以下三個維度注入人工噪聲:
- 實(shí)體 - 實(shí)體噪聲關(guān)聯(lián):在已對齊的實(shí)體對中,隨機(jī)選擇一個實(shí)體替換為不同實(shí)體,破壞原始對齊關(guān)系;
- 實(shí)體 - 屬性噪聲關(guān)聯(lián):將當(dāng)前實(shí)體的視覺和文本屬性隨機(jī)重新分配給不同實(shí)體,模擬屬性標(biāo)注錯誤;
- 屬性 - 屬性噪聲關(guān)聯(lián):對視覺和文本屬性注入噪聲,模擬屬性層面的噪聲干擾。
![]()
表 1:不使用名字屬性時(shí)的性能比較
![]()
表 2:所有屬性時(shí)的性能比較
部分實(shí)驗(yàn)結(jié)果如下:
根據(jù)表 1-2,本文提出的 RULE 在不同噪聲水平下均表現(xiàn)出卓越的魯棒性,全面領(lǐng)先于現(xiàn)有 SOTA 方法,這說明 RULE 能夠有效地緩解噪聲和潛隱關(guān)聯(lián)問題。即使在不額外注入噪聲的情況下,RULE 依然實(shí)現(xiàn)了大幅性能提升,這驗(yàn)證了現(xiàn)實(shí)世界數(shù)據(jù)集中普遍存在噪聲和潛隱關(guān)聯(lián)問題。
![]()
圖 3 跨圖譜關(guān)聯(lián)的可靠度分布
![]()
圖 4 實(shí)體內(nèi)關(guān)聯(lián)的可靠度可視化
![]()
圖 5 測試時(shí)關(guān)聯(lián)推理模塊的可視化
根據(jù)圖 3-4,提出的可靠度量化策略不僅能夠有效區(qū)分跨圖譜的正確關(guān)聯(lián)和噪聲關(guān)聯(lián),而且能夠識別出不可靠的屬性,從而促進(jìn)魯棒跨圖譜對齊和多屬性融合。此外,根據(jù)圖 5,測試時(shí)關(guān)聯(lián)推理模塊能夠有效挖掘出圖像屬性之間的潛在關(guān)聯(lián),從而提升實(shí)體對齊的準(zhǔn)確率。
總結(jié)與展望
本文提出的 RULE 探索了多模態(tài)實(shí)體對齊任務(wù)中的噪聲關(guān)聯(lián)和潛隱關(guān)聯(lián)問題,從多屬性融合、跨圖譜對齊和測試時(shí)推理三個層面揭示了兩者的負(fù)面影響,并進(jìn)一步構(gòu)建了評估方法魯棒性的基準(zhǔn)測試,為后續(xù)研究提供了實(shí)驗(yàn)觀察和評估體系。
值得注意的是,本工作是將噪聲關(guān)聯(lián)學(xué)習(xí)范式引入多模態(tài)實(shí)體對齊任務(wù)上的一次成功嘗試,拓展了噪聲關(guān)聯(lián)定義的外延,即實(shí)體內(nèi)和跨圖譜兩個層面的噪聲關(guān)聯(lián)。
此外,本工作揭示了現(xiàn)有檢索 / 對齊方法的固有缺陷,即依賴特征相似性進(jìn)行匹配,未能深入挖掘?qū)嶓w間的潛在關(guān)系,特別是潛隱關(guān)聯(lián)幾乎存在于所有的多模態(tài)任務(wù)中,而團(tuán)隊(duì)提出的關(guān)聯(lián)推理機(jī)制有望為相關(guān)研究帶來啟發(fā)。
參考文獻(xiàn)
[1] Ye Liu, Hui Li, Alberto Garcia-Duran, Mathias Niepert, Daniel Onoro-Rubio, and David S Rosenblum. Mmkg: Multi-modal knowledge graphs. In ESWC, 2019.
[2] Shichao Pei, Lu Yu, Guoxian Yu, and Xiangliang Zhang. Rea: Robust cross-lingual entity alignment between knowledge graphs. In KDD, 2020.
[3] Liyi Chen, Ying Sun, Shengzhe Zhang, Yuyang Ye, Wei Wu, and Hui Xiong. Tackling uncertain correspondences for multi-modal entity alignment. NeurIS, 2024.
[4] Zhuo Chen, Jiaoyan Chen, Wen Zhang, Lingbing Guo, Yin Fang, Yufeng Huang, Yichi Zhang, Yuxia Geng, Jeff Z Pan, Wenting Song, et al. Meaformer: Multi-modal entity alignment transformer for meta modality hybrid. In ACM Multimedia, 2023a.
[5] Murat Sensoy, Lance Kaplan, and Melih Kandemir. Evidential deep learning to quantify classification uncertainty. In NeurIPS, 2018.
[6] Mouxing Yang, Zhenyu Huang, Peng Hu, Taihao Li, Jiancheng Lv, and Xi Peng. Learning with twin noisy labels for visible-infrared person re-identification. In CVPR, 2022.
[7] Zhenyu Huang, Mouxing Yang, Xinyan Xiao, Peng Hu, and Xi Peng. Noise-robust vision-language pre-training with positive-negative learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024b.
[8] Nagarajan Natarajan, Inderjit S Dhillon, Pradeep K Ravikumar, and Ambuj Tewari. Learning with noisy labels. In NeurIPS, 2013.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.