ICLR 2026 Oral｜多模態(tài)知識圖譜對齊難：破解噪聲關(guān)聯(lián)至為關(guān)鍵

2026-03-06 14:55:34　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

在數(shù)據(jù)類型日益多元化的時(shí)代背景下，現(xiàn)實(shí)世界中的人、事、物皆可通過多種模態(tài)進(jìn)行記錄與呈現(xiàn)。在此趨勢推動下，多模態(tài)知識圖譜（MMKG）[1,2] 作為一種集成文本、圖像、結(jié)構(gòu)化關(guān)系等多模態(tài)數(shù)據(jù)的信息載體，能夠高效、全面地為各類多模態(tài)下游應(yīng)用提供數(shù)據(jù)支撐。作為構(gòu)建知識圖譜的核心技術(shù)，實(shí)體對齊致力于從不同來源的圖譜中識別同一實(shí)體，從而建立跨圖譜關(guān)聯(lián)并促進(jìn)圖譜融合。

然而，現(xiàn)實(shí)生活中，大規(guī)模知識圖譜的關(guān)聯(lián)與融合非一蹴而就，往往面臨著噪聲關(guān)聯(lián)和潛隱關(guān)聯(lián)的雙重挑戰(zhàn)。如圖一 (a) 和 (c) 所示，試想以下場景：

噪聲關(guān)聯(lián)：當(dāng)你試圖為「海王」杰森?莫瑪關(guān)聯(lián)圖像，卻因?yàn)闃O高的視覺相似度，將一張中國演員徐錦江的照片進(jìn)行了上傳；當(dāng)你認(rèn)為名字高度相似的 Mr. & Mrs. Smith 和 Will Smith and Mrs. Smith 是同一個實(shí)體時(shí)，其實(shí)是電影《史密斯夫婦》與美國明星「威爾?史密斯夫婦」。
潛隱關(guān)聯(lián)：當(dāng)模型想找到著名足球運(yùn)動員 C 羅，卻發(fā)現(xiàn)搜索到實(shí)體的圖像竟然是「葡萄牙國旗」，于是認(rèn)為并不是想查詢的「人」。殊不知，這正是 C 羅的國籍。

近日，來自四川大學(xué)的研究團(tuán)隊(duì)揭示了上述現(xiàn)象在大規(guī)模知識圖譜中廣泛存在，并有效緩解了噪聲關(guān)聯(lián)和潛隱關(guān)聯(lián)對實(shí)體對齊的負(fù)面影響，有望推動大規(guī)模知識圖譜的關(guān)聯(lián)與融合。目前，該論文被機(jī)器學(xué)習(xí)頂會 ICLR 2026 接收為了 Oral。

論文標(biāo)題：Learning with Dual-level Noisy Correspondence for Multi-modal Entity Alignment
論文鏈接：https://openreview.net/forum?id=mytIKuRsSE
代碼鏈接：https://github.com/XLearning-SCU/2026-ICLR-RULE
噪聲關(guān)聯(lián)學(xué)習(xí)倉庫：https://github.com/XLearning-SCU/Awesome-Noisy-Correspondence

背景與挑戰(zhàn)

多模態(tài)實(shí)體對齊（MMEA）[3,4] 旨在識別異構(gòu)知識圖譜中的同一實(shí)體，而圖譜中的每個實(shí)體都與各種屬性（如結(jié)構(gòu)化信息、圖像和文本描述）相關(guān)聯(lián)。為建立異構(gòu)知識圖譜的關(guān)聯(lián)，現(xiàn)有方法首先會根據(jù)實(shí)體內(nèi)關(guān)聯(lián)（實(shí)體 - 屬性關(guān)聯(lián)）來融合多模態(tài)屬性，以獲取實(shí)體表征，然后根據(jù)跨圖譜關(guān)聯(lián)（實(shí)體 - 實(shí)體關(guān)聯(lián)，屬性 - 屬性關(guān)聯(lián)），進(jìn)行實(shí)體層面和屬性層面的跨圖譜對齊來消除差異。

然而，現(xiàn)有方法通常假設(shè)實(shí)體內(nèi)和跨圖譜的關(guān)聯(lián)都是正確的，忽略了知識圖譜中廣泛存在的噪聲關(guān)聯(lián)問題。據(jù)統(tǒng)計(jì)，部分基準(zhǔn)測試中有超過 50% 的實(shí)體受噪聲關(guān)聯(lián)問題影響。如圖 1 (b) 所示，噪聲關(guān)聯(lián)不僅會破壞實(shí)體內(nèi)的屬性融合，還會誤導(dǎo)跨圖譜對齊過程，這兩方面因素都將導(dǎo)致模型性能顯著下降。

除了噪聲關(guān)聯(lián)現(xiàn)象外，現(xiàn)有的多模態(tài)實(shí)體對齊模型通常僅依賴淺層相似度來判斷關(guān)聯(lián)程度，忽略了模型推理時(shí)往往存在看似不同但本質(zhì)相同的屬性，如圖 1 (c) 所示，這些潛隱關(guān)聯(lián)往往會影響實(shí)體對齊的準(zhǔn)確性。

圖 1：噪聲關(guān)聯(lián)和潛隱關(guān)聯(lián)示意圖，以及二者相關(guān)的觀察實(shí)驗(yàn)。

針對噪聲關(guān)聯(lián)和潛隱關(guān)聯(lián)挑戰(zhàn)，本文提出了 RULE，主要貢獻(xiàn)如下：

揭示了多模態(tài)知識圖譜中的噪聲關(guān)聯(lián)問題，從多屬性融合和跨圖譜對齊兩個層面探索了噪聲關(guān)聯(lián)的負(fù)面影響。
在測試時(shí)引入關(guān)聯(lián)推理模塊，來確保更準(zhǔn)確的實(shí)體識別，率先在實(shí)體對齊領(lǐng)域探索增強(qiáng)測試時(shí)魯棒性。
為檢驗(yàn)現(xiàn)有方法的魯棒性建立了統(tǒng)一的基準(zhǔn)測試，涵蓋 5 個廣泛應(yīng)用的數(shù)據(jù)集。

方法

本文設(shè)計(jì)了一系列方法來緩解噪聲關(guān)聯(lián)和潛隱關(guān)聯(lián)對多模態(tài)實(shí)體對齊模型的負(fù)面影響。具體而言，團(tuán)隊(duì)首先提出了統(tǒng)一的準(zhǔn)則來量化實(shí)體內(nèi)和跨圖譜關(guān)聯(lián)的可靠度，在訓(xùn)練時(shí)采用魯棒的多屬性融合和跨圖譜對齊策略來緩解噪聲關(guān)聯(lián)的負(fù)面影響，在測試時(shí)使用了關(guān)聯(lián)推理模塊來挖掘潛隱關(guān)聯(lián)，最終實(shí)現(xiàn)更準(zhǔn)確的實(shí)體對齊。

圖 2：RULE 的框架圖

1）可靠度建模

2）魯棒的跨圖譜對齊和多屬性融合

基于建模的關(guān)聯(lián)可靠度，團(tuán)隊(duì)提出了魯棒的跨圖譜對齊和多屬性融合，用于緩解噪聲關(guān)聯(lián)在這兩方面的負(fù)面影響。

魯棒的跨圖譜對齊：如圖 2 所示，RULE 采用基于 Dirichlet 分布的證據(jù)學(xué)習(xí) [5] 來優(yōu)化跨圖譜關(guān)聯(lián)，

魯棒的多屬性融合：在可靠度建模部分，團(tuán)隊(duì)量化了實(shí)體 / 屬性對的可靠度，接下來需要估計(jì)實(shí)體內(nèi)關(guān)聯(lián)的可靠度。團(tuán)隊(duì)觀察到，對于正確的實(shí)體 - 實(shí)體關(guān)聯(lián)而言，錯誤的實(shí)體 - 屬性關(guān)聯(lián)一定會導(dǎo)致錯誤的屬性 - 屬性關(guān)聯(lián)。因此，跨圖譜屬性 - 屬性關(guān)聯(lián)的可靠度能夠用于識別錯誤的實(shí)體 - 屬性關(guān)聯(lián)。對于正確的實(shí)體 - 實(shí)體關(guān)聯(lián)而言，團(tuán)隊(duì)采用如下的魯棒多屬性融合方式來獲取實(shí)體表征，

3）測試時(shí)關(guān)聯(lián)推理

為了挖掘看似不同但本質(zhì)相同的屬性，團(tuán)隊(duì)提出了測試時(shí)關(guān)聯(lián)推理模塊，利用多模態(tài)大模型（MLLM）的內(nèi)蘊(yùn)知識來矯正屬性 - 屬性關(guān)聯(lián)，進(jìn)而提升跨圖譜實(shí)體對齊的準(zhǔn)確率。具體而言，MLLM 推理得到的對齊結(jié)果如下：

實(shí)驗(yàn)結(jié)果

本文提出的 RULE 旨在克服多模態(tài)實(shí)體對齊中的噪聲關(guān)聯(lián)和潛隱關(guān)聯(lián)挑戰(zhàn)。為了更好地研究 RULE 的魯棒性，團(tuán)隊(duì)參考噪聲關(guān)聯(lián) [6,7]/ 標(biāo)簽 [8] 學(xué)習(xí)領(lǐng)域廣泛采用的策略，通過人工注入噪聲的方式構(gòu)建了更加嚴(yán)苛的評估環(huán)境。

具體而言，團(tuán)隊(duì)在以下三個維度注入人工噪聲：

實(shí)體 - 實(shí)體噪聲關(guān)聯(lián)：在已對齊的實(shí)體對中，隨機(jī)選擇一個實(shí)體替換為不同實(shí)體，破壞原始對齊關(guān)系；
實(shí)體 - 屬性噪聲關(guān)聯(lián)：將當(dāng)前實(shí)體的視覺和文本屬性隨機(jī)重新分配給不同實(shí)體，模擬屬性標(biāo)注錯誤；
屬性 - 屬性噪聲關(guān)聯(lián)：對視覺和文本屬性注入噪聲，模擬屬性層面的噪聲干擾。

表 1：不使用名字屬性時(shí)的性能比較

表 2：所有屬性時(shí)的性能比較

部分實(shí)驗(yàn)結(jié)果如下：

根據(jù)表 1-2，本文提出的 RULE 在不同噪聲水平下均表現(xiàn)出卓越的魯棒性，全面領(lǐng)先于現(xiàn)有 SOTA 方法，這說明 RULE 能夠有效地緩解噪聲和潛隱關(guān)聯(lián)問題。即使在不額外注入噪聲的情況下，RULE 依然實(shí)現(xiàn)了大幅性能提升，這驗(yàn)證了現(xiàn)實(shí)世界數(shù)據(jù)集中普遍存在噪聲和潛隱關(guān)聯(lián)問題。

圖 3 跨圖譜關(guān)聯(lián)的可靠度分布

圖 4 實(shí)體內(nèi)關(guān)聯(lián)的可靠度可視化

圖 5 測試時(shí)關(guān)聯(lián)推理模塊的可視化

根據(jù)圖 3-4，提出的可靠度量化策略不僅能夠有效區(qū)分跨圖譜的正確關(guān)聯(lián)和噪聲關(guān)聯(lián)，而且能夠識別出不可靠的屬性，從而促進(jìn)魯棒跨圖譜對齊和多屬性融合。此外，根據(jù)圖 5，測試時(shí)關(guān)聯(lián)推理模塊能夠有效挖掘出圖像屬性之間的潛在關(guān)聯(lián)，從而提升實(shí)體對齊的準(zhǔn)確率。

總結(jié)與展望

本文提出的 RULE 探索了多模態(tài)實(shí)體對齊任務(wù)中的噪聲關(guān)聯(lián)和潛隱關(guān)聯(lián)問題，從多屬性融合、跨圖譜對齊和測試時(shí)推理三個層面揭示了兩者的負(fù)面影響，并進(jìn)一步構(gòu)建了評估方法魯棒性的基準(zhǔn)測試，為后續(xù)研究提供了實(shí)驗(yàn)觀察和評估體系。

值得注意的是，本工作是將噪聲關(guān)聯(lián)學(xué)習(xí)范式引入多模態(tài)實(shí)體對齊任務(wù)上的一次成功嘗試，拓展了噪聲關(guān)聯(lián)定義的外延，即實(shí)體內(nèi)和跨圖譜兩個層面的噪聲關(guān)聯(lián)。

此外，本工作揭示了現(xiàn)有檢索 / 對齊方法的固有缺陷，即依賴特征相似性進(jìn)行匹配，未能深入挖掘?qū)嶓w間的潛在關(guān)系，特別是潛隱關(guān)聯(lián)幾乎存在于所有的多模態(tài)任務(wù)中，而團(tuán)隊(duì)提出的關(guān)聯(lián)推理機(jī)制有望為相關(guān)研究帶來啟發(fā)。

參考文獻(xiàn)

[1] Ye Liu, Hui Li, Alberto Garcia-Duran, Mathias Niepert, Daniel Onoro-Rubio, and David S Rosenblum. Mmkg: Multi-modal knowledge graphs. In ESWC, 2019.

[2] Shichao Pei, Lu Yu, Guoxian Yu, and Xiangliang Zhang. Rea: Robust cross-lingual entity alignment between knowledge graphs. In KDD, 2020.

[3] Liyi Chen, Ying Sun, Shengzhe Zhang, Yuyang Ye, Wei Wu, and Hui Xiong. Tackling uncertain correspondences for multi-modal entity alignment. NeurIS, 2024.

[4] Zhuo Chen, Jiaoyan Chen, Wen Zhang, Lingbing Guo, Yin Fang, Yufeng Huang, Yichi Zhang, Yuxia Geng, Jeff Z Pan, Wenting Song, et al. Meaformer: Multi-modal entity alignment transformer for meta modality hybrid. In ACM Multimedia, 2023a.

[5] Murat Sensoy, Lance Kaplan, and Melih Kandemir. Evidential deep learning to quantify classification uncertainty. In NeurIPS, 2018.

[6] Mouxing Yang, Zhenyu Huang, Peng Hu, Taihao Li, Jiancheng Lv, and Xi Peng. Learning with twin noisy labels for visible-infrared person re-identification. In CVPR, 2022.

[7] Zhenyu Huang, Mouxing Yang, Xinyan Xiao, Peng Hu, and Xi Peng. Noise-robust vision-language pre-training with positive-negative learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024b.

[8] Nagarajan Natarajan, Inderjit S Dhillon, Pradeep K Ravikumar, and Ambuj Tewari. Learning with noisy labels. In NeurIPS, 2013.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.