網易首頁 > 網易號 > 正文申請入駐

讓大模型學會高維找茬，中國聯通新研究解決長文本圖像檢索痛點

2025-12-01 16:46:32　來源: 量子位

北京舉報

分享至

允中整理自凹非寺
量子位 | 公眾號 QbitAI

長文本圖像檢索新SOTA來了！

描述得越詳細，圖文匹配的分數就應該越高——這聽起來是常識，但現有的CLIP模型卻做不到。

而就在最近，中國聯通數據科學與人工智能研究院團隊在AAAI 2026 (Oral)上發表了一項最新成果，成功突破了這一局限。

研究名為HiMo-CLIP，通過巧妙地建模“語義層級”與“語義單調性”，在不改變編碼器結構的前提下，讓模型自動捕捉當前語境下的“語義差異點”

由此，成功解決了視覺-語言對齊中長期被忽視的結構化問題，在長文本、組合性文本檢索上取得SOTA，同時兼顧短文本性能。

這一工作不僅提升了檢索精度，更讓多模態模型的對齊機制更加符合人類的認知邏輯，為未來更復雜的多模態理解任務指明了方向。

痛點：當描述變長，CLIP卻“懵”了

在多模態檢索任務中，我們通常期望：文字描述越詳細、越完整，其與對應圖像的匹配度（對齊分數）應該越高。這被稱為“語義單調性”。

然而，現實很骨感。現有的模型（包括專門針對長文本優化的Long-CLIP等）往往將文本視為扁平的序列，忽略了語言內在的層級結構

如下圖所示，對于同一張“白色福特F250皮卡”的圖片，當文本從簡短的“正面視圖…”擴展到包含“超大輪胎”、“車軸可見”、“有色車窗”等詳細描述的長文本時，許多SOTA模型的對齊分數反而下降了。

這種現象表明，模型未能有效處理長文本中的“語義層級”，導致細節信息淹沒了核心語義，或者無法在復雜的上下文中捕捉到最具區分度的特征。

△圖1 隨著描述變長，現有模型分數下降，而HiMo-CLIP（綠勾）穩步提升

方法：HiMo-CLIP框架

為了解決上述問題，研究團隊提出了一種即插即用的表征級框架HiMo-CLIP

它包含兩個核心組件：層級分解模塊（Hierarchical Decomposition，HiDe）和單調性感知對比損失（Monotonicity-aware Contrastive Loss，MoLo）。

△圖2. HiMo-CLIP框架概覽

（1）HiDe模塊利用Batch內的PCA動態提取語義成分；（2）MoLo損失函數強制模型同時對齊“全量文本”和“語義成分”，實現單調性約束。

HiDe：誰是重點？由“鄰居”決定

在真實場景中，數據樣本往往是高度復雜的。

如上圖2所示，我們面對的不是簡單的“紅蘋果”和“青蘋果”，而是像“一只金毛獵犬在公園草坪上追趕紅盤”、“盤子里放著鮮紅的草莓、黃香蕉和深紫色的葡萄”這樣高度復雜的場景。傳統的固定分詞法在這種復雜度下根本抓不住重點。

HiMo-CLIP換了個思路，它像一個玩“大家來找茬”的高手：通過觀察Batch內的“鄰居”，動態提取最具區分度的特征

長文本特征f1：代表“整句話”的意思。
動態子語義f2：代表“這句話里最獨特的記憶點”。舉個栗子：假設長文本是：“一只戴著墨鏡的柯基在沙灘上奔跑”。
場景A（混在風景照里）：如果這一批次（Batch）的其他圖片都是“沙灘排球”、“海邊游艇”。PCA一分析，發現“沙灘”大家都有，不稀奇。唯獨“柯基”是獨一份。→此時，f2自動代表“柯基（物體）”。
場景B（混在狗群里）：如果這一批次的其他圖片都是“草地上的柯基”、“沙發上的柯基”。PCA一分析，發現“柯基”遍地都是，也沒法區分。唯獨“戴墨鏡”和“在沙灘”是特例。→此時，f2自動代表“戴墨鏡/沙灘（屬性/環境）”。

這就是HiDe最聰明的地方：它不需要人教它什么是重點，而是利用統計學原理，自適應地提取出那個最具辨識度的“特征指紋”，自動構建語義層級。

MoLo：既要顧全大局，又要抓住細節

找到了重點f2，怎么用呢？作者設計了MoLo，強制模型“兩手抓”：

MoLo=InfoNCE(f1, feat)+λ*InfoNCE(f2, feat)

第一手：InfoNCE(f1, feat)是傳統的圖文匹配，保證圖片和“整句話”（f1）對齊。
第二手：InfoNCE(f2, feat)強制圖片特征還要特別像那個提取出來的“獨特記憶點”（f2）。

這個操作看似簡單，實則一石三鳥：

自動摘要：f2就是特征空間里的“高維短文本”，省去了人工構造短文本的偏差。
更懂機器的邏輯：人類定義的關鍵詞（如名詞）未必是模型分類的最佳依據（可能是紋理或形狀）。PCA完全在特征空間操作，提取的是機器認為的差異點，消除了人類語言和機器理解之間的隔閡（Gap）。
數據效率高：你只需要喂給模型長文本，它在訓練中順便學會了如何拆解長句、提取關鍵詞。訓練的是長文本，卻白撿了短文本的匹配能力。

實驗：長短通吃，全面SOTA

研究團隊在多個經典的長文本、短文本檢索基準，以及自行構造的深度層級數據集HiMo-Docci上進行了廣泛實驗。

在長文本（表1）和短文本（表2）檢索任務上，HiMo-CLIP展現出了顯著的優勢。值得注意的是，HiMo-CLIP僅使用了1M（一百萬）的訓練數據，就擊敗了使用100M甚至10B數據的方法（如LoTLIP，SigLIP等）。

△表1 長文本檢索結果

△表2 短文本檢索結果

為了充分評估長文本的對齊效果，研究團隊構建了HiMo-Docci數據集，同時還提出了HiMo@K指標，以量化模型是否真的“讀懂”了層級。結果顯示，HiMo-CLIP保持了極高的單調性相關系數（0.88），遠超對比方法。

△HiMo-Docci上的單調性可視化

隨著文本描述逐漸完整（1→5），HiMo-CLIP的分數（紅線）呈現出完美的上升趨勢，而其他模型的分數則波動劇烈，甚至下降。

進一步的，為了探究各個組件對性能的具體貢獻，研究團隊進行了詳盡的消融實驗，揭示了HiDe與MoLo協同工作的內在機理。

感興趣的朋友可到原文了解更多細節～

論文鏈接：https://arxiv.org/abs/2511.06653
開源地址：https://github.com/UnicomAI/HiMo-CLIP

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.