網易首頁 > 網易號 > 正文申請入駐

多模態檢索新突破，用軟標簽打破傳統剛性映射約束，全面超越CLIP

2025-11-15 13:18:07　來源: 量子位

北京舉報

分享至

UniME-V2團隊投稿
量子位 | 公眾號 QbitAI

統一多模態嵌入模型是眾多任務的技術基石。

當前主流方法通常采用批內負例挖掘策略，通過計算查詢-候選對的相似度進行訓練。

但這類方法存在明顯局限：難以捕捉候選樣本間細微的語義差異，負例樣本多樣性不足，且模型在區分錯誤負例與困難負例時的判別能力有限。

針對這些問題，團隊提出全新解決方案——基于多模態大模型語義理解能力的統一多模態嵌入模型UniME-V2。

該方法首先通過全局檢索構建潛在困難負例集，隨后創新性地引入“MLLM-as-a-Judge”機制：利用MLLM對查詢-候選對進行語義對齊評估，生成軟語義匹配分數。

這一設計帶來三重突破：

以匹配分數為依據實現精準困難負例挖掘，有效規避錯誤負例干擾
確保篩選出的困難負例兼具多樣性與高質量特性
通過軟標簽機制打破傳統一對一的剛性映射約束

通過將模型相似度矩陣與軟語義匹配分數矩陣對齊，使模型真正學會辨析候選樣本間的語義差異，顯著提升判別能力。

為進一步提升性能，團隊基于挖掘的困難負例訓練出重排序模型UniME-V2-Reranker，采用配對與列表聯合優化策略。

圖1 UniME-V2與以往方法的本質不同，在于巧妙利用了多模態大模型（MLLM）的深層語義理解能力。它不僅能用此能力精準挖掘“困難負例”，更能生成一個軟語義匹配分數，如同一位資深導師，指導模型學會辨別候選樣本間微妙的語義差異。

方法

MLLM-as-a-Judge 困難負樣本挖掘

過去的研究主要依賴于批內硬負樣本挖掘，其中計算查詢-候選嵌入相似性以采樣負樣本。

然而，這種方法通常受到負樣本多樣性有限和嵌入判別能力不足的困擾，難以有效區分錯誤和困難的負樣本。

為了克服這些挑戰，如圖2所示，首先利用全局檢索構建一個潛在的困難負樣本集。

之后，利用MLLM的強大理解能力來評估每個查詢-候選對的語義對齊性，并生成軟語義匹配分數。

這個分數指導了硬負樣本挖掘，使得能夠識別出多樣化和高質量的困難負樣本，同時減少錯誤負樣本的影響。

圖2：基于MLLM-as-a-Judge的困難負樣本挖掘流程。我們首先利用現有的多模態嵌入模型進行全局檢索，構建一個潛在的困難負樣本集。然后，利用MLLM強大的理解能力根據語義對齊性對查詢-候選對進行評分，從而精確識別困難負樣本。

潛在困難負樣本集合為了從全局樣本中提取更高質量的困難負樣本，首先使用VLM2Vec為查詢和候選生成嵌入。

接著，為每個查詢檢索出50個最相關的候選。

為了應對錯誤負樣本并增加多樣性，我們基于查詢-候選相似度分數設定一個相似度閾值，并選擇前50名的候選作為潛在的困難負樣本集：

其中是由VLM2Vec模型計算得出的查詢與候選的相似度分數。

語義匹配分數在構建潛在的困難負樣本集后，我們使用MLLM作為評判，為中的每個查詢-候選對計算語義匹配分數，具體指令如下：

隨后，根據（）和（）標記的logits計算語義匹配分數，其中。這里，表示查詢的數量。利用MLLMs的高級理解能力，語義匹配分數有效地捕捉了查詢和候選之間的語義對齊程度。

困難負樣本采樣為了提高困難負樣本的質量，利用語義匹配分數對候選進行精煉。

候選樣本的分數超過閾值（其中表示正樣本，是控制閾值間隔的超參數）則會當作錯誤負樣本并排除。為保持多樣性，采用五步間隔的循環采樣策略。

如果精煉后的集合包含的候選少于十個，將重復選擇以確保至少有十個。

在極少數情況下（<1%），如果沒有候選符合條件，將從最初的五十個候選中隨機選擇10個，并給每個分配1.0的語義匹配分數。

最后，對于每個查詢，我們獲得困難負樣本集及其相應的語義匹配分數。

圖3：基于MLLM判斷的訓練框架結構。UniME-V2使用軟語義匹配分數作為監督信號，以增強候選者間的語義區分學習。UniME-V2-Reranker采用pairwise和listwise聯合訓練以提升重排序性能。

基于MLLM判斷的訓練框架

UniME-V2為此提出了一個基于MLLM判斷的分布對齊框架，如圖3所示，利用軟語義匹配分數作為監督信號來提高表征性能。

具體來說，給定一個查詢及其候選集，將它們輸入到MLLM中，并提取最后一個標記作為查詢和候選集的嵌入，其中是目標候選的嵌入，是每個查詢的困難負樣本數。然后計算查詢嵌入與候選嵌入之間的關系得分矩陣如下：

基于語義匹配分數，計算由MLLM判斷得出的語義匹配分數矩陣如下：

為了增強學習的穩健性并確保矩陣對稱性，采用了JS-Divergence，這是KL-Divergence的一種對稱替代。最終的損失函數定義為：

除此之外，受前人工作啟發，UniME-V2聯合pairwise和listwise訓練了一個重排序模型UniME-V2-Reranker（如圖3所示）來提高基于初始嵌入的檢索精度。

在成對訓練中，為每個查詢構造兩對，一對與正候選結合，另一對與最困難的負候選結合。然后指導UniME-V2-Reranker對正候選輸出，對負候選輸出。成對損失使用交叉熵損失函數計算如下：

其中表示UniME-V2-Reranker的自回歸輸出過程。對于列表訓練，基于語義匹配分數，從困難負候選中選擇前個候選，隨機插入目標候選并獲取其索引。

然后提示UniME-V2-Reranker輸出真實位置，公式為：

最終的損失函數定義為。

表1：MMEB基準測試結果。IND表示在分布內，OOD表示在分布外。分數為補充材料中的平均精度結果。

實驗

多模態檢索

表1展示了在相同訓練數據和配置下UniME-V2與現有基線模型在MMEB基準上的性能對比。

UniME-V2在各種基礎模型上均有顯著的性能提升。

具體來說，UniME-V2在Qwen2-VL-2B和7B模型上分別比VLM2Vec高出3.5%和2.2%。

當基于LLaVA-OneVision作為基礎時，UniME-V2比包括QQMM、LLaVE和UniME在內的之前的最先進模型提高了0.5%-0.9%。此外，UniME-V2在分布外數據集上的得分為66.7，凸顯其魯棒性和卓越的遷移能力。

表2：在短描述（Flickr30K, MS-COCO）、長描述（ShareGPT4V, Urban1K）和組合（SugarCrepe）數據集上的零樣本文本-圖像檢索結果。

跨模態檢索

如表2所示，在零樣本跨模態檢索任務上評估UniME-V2。對于短描述數據集，包括Flickr30K和MS-COCO，UniME-V2在圖像到文本檢索中比UniME表現出了2.2%-9.7%的性能提升。

在文本到圖像檢索中，其性能與UniME相當，這主要歸因于兩個因素：

（1）MMEB訓練集中文本到圖像數據的比例有限；

（2）短描述中的語義信息不足。

對于長描述跨模態檢索任務，UniME-V2在ShareGPT4V和Urban1K上取得了顯著改進，這得益于其增強的區分能力和詳細描述提供的豐富語義內容。

值得注意的是，與EVA-CLIP-8B相比，UniME-V2展示了更為穩健的檢索性能，這主要因為其通用多模態嵌入能顯著減少模態間的差距（如圖4所示）。

圖4：EVA-CLIP-8B與UniME-V2（LLaVA-OneVision-7B）之間的表示分布對比。

組合跨模態檢索

基于SugarCrepe評估UniME-V2模型區分困難負樣本的能力。

如表2所示，UniME-V2在所有評估指標上均表現出卓越性能。

與UniME相比在使用Qwen2-VL-2B時性能提升了5.3%，6.0%，4.5%。當模型從2B擴展到7B后也實現了9.0%，9.2%，9.2%的性能提升。

此外，與EVA-CLIP-8B相比，UniME-V2還顯示出2.7%，3.4%，和3.8%的改進，凸顯其在區分困難負樣本上的強大能力。

表3：使用UniME-V2 (Qwen2-VL-7B) 和 UniME-V2 (Qwen2-VL-2B) 比較LamRA與UniME-V2-Reranker的重排序性能。

重排序對比

在表3中基于top5檢索結果對比了LamRA與UniME-V2-Reranker的性能。為確保公平，使用與LamRA相同的訓練參數和基礎模型（Qwen2.5-VL-7B）。

當使用LamRA和UniME-V2-Reranker對UniME-V2 (Qwen2-VL-2B) 檢索結果進行重排后在四個下游任務上均提升了性能。

UniME-V2-Reranker在只使用一半數據的情況下始終獲得更優結果。類似地，使用UniME-V2 (Qwen2-VL-7B) 進行檢索時，UniME-V2-Reranker的表現也超過了LamRA，在四個任務中分別獲得了0.5%，0.4%，0.3%，和7.4%的性能提升。

值得注意的是，UniME-V2-Reranker在組合理解檢索任務中展示了對LamRA的顯著優勢，這歸功于其利用MLLM的理解能力提取多樣化和高質量的困難樣本，有效增強了模型的區分能力。

論文：

https://arxiv.org/abs/2510.13515

GitHub：

https://github.com/GaryGuTC/UniME-v2

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

VinciCoder：多模態統一代碼生成框架和視覺反饋強化學習

機器之心Pro 2025-11-17 14:12:38
0 跟貼 0
微軟等提出ARO優化器：訓練提速1/3，揭示矩陣優化新「藍海」

機器之心Pro 2026-03-10 12:37:29
0 跟貼 0

訓練到推理「瘦身」演進：首篇高效擴散語言模型（dLLM）深度綜述

機器之心Pro 2026-03-10 10:00:07
0 跟貼 0

當男生和女友合照，用到女友的美顏參數

財經時間官方 2026-03-09 21:02:10
0 跟貼 0
不平衡數據下對比學習的理論分析：從訓練動態到剪枝解決方案

機器之心Pro 2026-03-10 16:37:38
0 跟貼 0

Jeff Dean新訪談：未來開發者人均50個智能體，寫需求成核心技能

量子位 2026-03-10 15:12:54
0 跟貼 0

首個物理AI數據基座平臺“無垠”落戶浙江，專治機器人數據荒

量子位 2026-03-09 18:39:03
0 跟貼 0
委員建議：將社會責任嵌入算法機制

每日經濟新聞 2026-03-09 21:39:40
128 跟貼 128

大風315 | 游客稱飛3000公里在西雙版納一景區游玩，因明星錄制綜藝節目被清場；景區：具體情況需由游客回應

大風新聞 2026-03-09 17:06:09
6971 跟貼 6971
德黑蘭市區再遭密集轟炸有戰機轟鳴

新華社 2026-03-10 10:39:14
11363 跟貼 11363
怕血管硬化這個指標一定要化驗

普外耿醫生 2026-03-06 11:55:13
0 跟貼 0
Energy Distance：度量兩個多元分布差異的統計方法

deephub 2026-03-06 20:59:28
6 跟貼 6
聚類分析的類型及計算原理

醫咖會 2025-09-12 20:07:29
0 跟貼 0
座艙智能體，車企的下一個高地

燃擎頻道 2026-03-10 16:36:36
0 跟貼 0
倆法國小伙辭職走路到中國:耗時2年走出新疆花了45天

新民周刊 2026-03-10 16:44:38
3200 跟貼 3200
直角三角形內切圓半徑公式推導過程！

大鵬老師講數學 2026-03-10 05:07:00
0 跟貼 0
汽車氛圍燈方案，都在用哪些芯片？

芯世相 2026-03-07 09:09:39
0 跟貼 0
突發！微信絕密「龍蝦」爆出，14億用戶體驗或將顛覆

新智元 2026-03-11 01:36:21
0 跟貼 0
紫牛頭條 | 買時宣稱功能永久免費，用后卻被要求付費升級！顧客投訴知名品牌電動車“言而無信”

揚子晚報 2026-03-10 07:15:24
3835 跟貼 3835
買車最容易讓人忽略的三個參數！

Mr劉然 2026-03-09 08:21:38
8 跟貼 8
MIT新方法讓兩顆芯片共享唯一“指紋”，重寫硬件安全規則

DeepTech深科技 2026-02-25 17:32:10
0 跟貼 0
伊朗媒體發布一則用玩具模型制作的視頻，講述戰爭如何結束

車馬點兵V 2026-03-08 13:42:50
1 跟貼 1
清華聯手千問重塑歸一化范式，讓 Transformer 回歸「深度」學習

機器之心Pro 2026-02-10 18:50:12
0 跟貼 0
年齡大不用愁，盯好這3個指標，早了解多活一天算一天！

大步搞笑 2026-03-10 09:59:35
1 跟貼 1
中華民族2030年將全面超越美西方，成為世界第一強國

夢喋說影視 2026-03-10 12:05:40
1 跟貼 1
“見過搶米搶面，沒見過搶塑料”，中東開戰，東莞一個小鎮大堵車！貿易商：潑天的富貴來了，干嘛不抓住？業內提醒：只是虛假繁榮

每日經濟新聞 2026-03-10 21:06:07
49 跟貼 49
中國成品油價迎四年來最大漲幅

環球網資訊 2026-03-10 09:34:47
5004 跟貼 5004
女子在杭州西湖景區把“西泠印社”認成“杜帥冷面”，網友：四個字認錯五個，當事人：沒有文化確實不行

揚子晚報 2026-03-06 17:44:56
1502 跟貼 1502
多模態推理新范式ThinkMorph ，文字與圖像在統一架構共同演化

機器之心Pro 2026-03-10 16:02:54
0 跟貼 0
陶哲軒親測Claude跑崩電腦，全靠這份保姆級指令清單翻盤

新智元 2026-03-11 01:37:25
0 跟貼 0
中朝國際旅客列車3月12日起雙向開行

中國鐵路 2026-03-10 20:40:01
2333 跟貼 2333
仰望2026款旗艦矩陣聯袂上市，閃充技術賦能極致體驗

早懂車 2026-03-10 20:49:17
3 跟貼 3
新的硬性指標：父母有沒有退休金！退休金真的這么重要嗎？

財弟聊人生 2026-03-09 13:00:38
0 跟貼 0
斯基拉：斯帕萊蒂本周將和尤文會面，想在國家比賽日完成續約

懂球帝 2026-03-10 15:25:10
1 跟貼 1
于冬個人律師：“于冬欠付澳門永利473萬元債務”系于東為第三方擔保導致，債務已還清

每日經濟新聞 2026-03-10 18:56:19
69 跟貼 69
騰訊視頻稱異常僅為頁面展示錯誤

北京日報 2026-03-09 18:23:43
360 跟貼 360
剛剛，湖北官宣“楚超”來了！

極目新聞 2026-03-10 11:03:13
206 跟貼 206
以為比亞迪又在卷參數，沒想到這次卷的是“體驗”?

祥哥測評 2026-03-08 14:01:33
0 跟貼 0
全網售罄、多地斷貨！老板懵了：以前堆成山都賣不掉，結果現在價格暴漲

掌上春城 2026-03-10 20:24:37
6 跟貼 6
腫瘤患者化療后哪些指標下降要擔心？廣州腫瘤專家崔哲科普

程式生物滅活 2026-03-06 10:32:33
4 跟貼 4

量子位

追蹤人工智能動態

12260文章數 176413關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

手機

家居

健康

藝術

手機 / 數碼

房產 / 家居

多模態檢索新突破，用軟標簽打破傳統剛性映射約束，全面超越CLIP

方法

MLLM-as-a-Judge 困難負樣本挖掘

基于MLLM判斷的訓練框架

實驗

多模態檢索

跨模態檢索

組合跨模態檢索

重排序對比

全民"養蝦"背后：大廠集體下場瘋狂賣Token

伊朗新最高領袖在襲擊中受傷未公開發表講話 官方回應

伊朗新最高領袖在襲擊中受傷未公開發表講話 官方回應

加蘭沒那么差，但鱸魚會用嗎？

《逐玉》注水風波升級！315評論區淪陷

“龍蝦補貼”密集出爐 最高1000萬！

MG4有SUV衍生 上汽乘用車多款新車規劃曝光

態度原創

M5 Max 版 16 英寸 MacBook Pro 體驗：算力巔峰與專業視界

M5 Max 版 16 英寸 MacBook Pro 體驗：算力巔峰與專業視界

自然肌理 溫度質感婚房

轉頭就暈的耳石癥，能開車上班嗎？

震撼！美國油畫家約書亞·拉洛克的作品讓人驚嘆不已！

伊朗新最高領袖在襲擊中受傷未公開發表講話官方回應

伊朗新最高領袖在襲擊中受傷未公開發表講話官方回應

“龍蝦補貼”密集出爐最高1000萬！

MG4有SUV衍生上汽乘用車多款新車規劃曝光

自然肌理溫度質感婚房