網易首頁 > 網易號 > 正文申請入駐

讓多模態檢索超越SOTA！ReCALL框架化解生成式與判別式的范式沖突

2026-04-06 23:28:00　來源: 量子位

北京舉報

分享至

ReCALL團隊投稿量子位 | 公眾號 QbitAI

生成式模型當檢索器大材小用效果還不好？

當多模態大模型（MLLM）憑借強大的圖文理解與邏輯推理能力成為AI領域的核心抓手，將其應用于圖像檢索尤其是組合圖像檢索（CIR）任務，本應是降維打擊的最優解。

然而現實卻相悖：把生成式大模型強行改造為判別式檢索器后，模型會出現嚴重的能力退化，連原本100%能精準解決的問題都頻頻出錯，生成式與判別式的范式沖突，成為大模型向檢索領域落地的核心壁壘。

如今，這一行業難題被AI國家隊紫東太初團隊聯合新加坡國立大學成功攻克。其最新研究成果ReCALL框架，憑借獨創的“診斷-生成-校準”閉環體系，從根本上解決了大模型從生成式到判別式的范式沖突問題，讓大模型在保留原生細粒度推理能力的同時，完美變身高效檢索器

該成果已被計算機視覺頂會CVPR 2026正式錄用，在CIRR、FashionIQ等主流基準測試中全面刷新SOTA性能，更開辟了大模型下游任務能力無損適配的全新路徑，為多模態大模型的垂直領域落地奠定核心基礎。

行業痛點：范式沖突致大模型檢索“智能倒退”

為什么聰明的MLLM一做檢索就容易翻車？作者團隊一針見血地指出了問題的核心：范式沖突（Paradigm Conflict）

原生的大模型習慣于生成式范式，它通過一步步的鏈式思考（Step-wise reasoning）來理解細粒度的視覺關系。但是，現有的檢索適配方法往往采用判別式范式，強行把大模型的高維思考壓縮成一個單一的向量，去計算相似度。

這種暴力的轉變直接導致了一個致命后果——能力退化（Capability Degradation）

如上圖左側所示，面對“地板上的兩只同品種狗”這樣需要細粒度推理的查詢時，原生的大模型（F）通過VQA問答可以輕松鎖定目標。然而，經過傳統微調后的檢索器版本（Rbase）卻完全喪失了這種細粒度grounding能力，找出的全是錯誤的圖。

定量數據更令人震驚：在原生大模型原本能夠100%找對的子集上，微調后的檢索器在CIRR數據集上R@1暴跌至62.33%，在FashionIQ上暴跌至55.80%。模型不僅沒有學到新東西，反而把原本自帶的推理天賦給弄丟了！

破局之道：ReCALL四階段校準框架

既然能力退化是因為初期的檢索微調把大模型“帶偏了”，那怎么把它拉回正軌？

作者提出了一個通用的框架ReCALL。它的核心思想非常巧妙：用大模型原生的推理信號，來糾正檢索空間中的盲區。實際上，整個閉環被嚴密地劃分為四個階段，其中第一階段完成了基礎的檢索器初始化并暴露出退化問題，后三個階段則是極其優雅的“診斷-生成-打磨”校準管線：

Stage 1：基礎檢索適配（Baseline Adaptation）。為了讓生成式大模型具備基本的圖文檢索功能，研究人員首先用標準的InfoNCE損失函數，將原生大模型（F）微調成一個基礎檢索器（Rbase）。這一步雖然賦予了模型基礎的判別與檢索能力，但也正是這種暴力的單向量壓縮，誘發了前文提到的“能力退化”癥狀。

Stage 2：自我診斷（Diagnose）。俗話說“錯題本是最好的老師”。有了基礎檢索器后，讓它在訓練集上跑一遍，專門挑出那些它“找錯”的樣本（Informative Instances）。這些能高分騙過檢索器的負樣本，往往和正確答案有著極細微的視覺差別，它們正是模型能力退化、認知最模糊的“盲區”。

Stage 3：生成校正（Generate）。拿著這些挑出來的錯題，作者團隊并沒有簡單粗暴地讓原生大模型（F）重新“看圖說話”，而是精心設計了一套包含嚴密邏輯的鏈式思考（CoT）誘導機制。具體而言，這個“講題”過程被巧妙地拆解為兩個核心步驟：

① 意圖分解與驗證（Intent Decomposition & Verification）：大模型首先會將原始的修改指令拆解成一個個“原子意圖”，并挨個對照參考圖和找錯的圖進行核查，精準定位出到底哪一個細粒度意圖在錯圖中被違背了。

② 最小編輯合成（Minimal Edit Synthesis）：在抓住了矛盾點后，大模型會保留那些依然成立的意圖，僅僅重寫被違背的部分，從而“打補丁”式地合成出一條全新的修改指令。

通過這種極其精巧的設計，框架自動生成了從“參考圖”指向“錯圖”的全新糾錯三元組。這種從原文本到新文本的“極小幅文字編輯”，在視覺上直接鏡像了真實目標圖與強干擾錯圖之間極其微妙的差異，從而為檢索模型提供了極其顯式、高密度的細粒度圖文對齊監督信號。

更重要的是，這種嚴格遵循“最小編輯原則”的生成方式，絕非無拘無束的文本發散，它最大程度地保證了新構建的訓練三元組與原始數據集在數據分布上的高度一致性。最后，再輔以VQA（視覺問答）級別的語義一致性過濾，剔除掉幻覺和噪音，確保送入模型微調的“糾錯信號”不僅直擊痛點，而且絕對高保真。

Stage 4：針對性打磨（Refine）。有了精確的糾錯指令，最后一步就是通過分組對比學習（Grouped Contrastive Refinement）來完成進化。框架會把原查詢和對應的糾錯查詢打包放在同一個批次里“對沖”，配合雙重優化目標，逼迫檢索器去明確區分那些極其細微的視覺-語義邊界，最終將原生大模型的細粒度推理能力完美內化。

通過這套組合拳，檢索器不僅重新找回了丟失的細粒度推理能力，還將其完美內化到了自己的向量空間中。

實測成績：全場景刷新SOTA，細粒度檢索能力拉滿

ReCALL的有效性在各大主流基準測試中得到了驗證。

CIRR開放域復雜數據集上，ReCALL創造了55.52%的R@1新SOTA，相較于基線模型實現了8.38%的相對提升！在專門考察細粒度區分能力的子集上（R_{subset}@1），更是達到了恐怖的81.49%。
FashionIQ細粒度時尚數據集上，即便面對極度相似的服裝干擾項，ReCALL依然取得了最好的表現，平均R@10達到57.04%

看看上面的實際檢索案例，基線模型遇到“正視鏡頭”、“半袖”這種細粒度條件直接懵圈；而經過ReCALL校準后的模型，眼光毒辣，精準鎖定目標！

結語

ReCALL的成功不僅在于刷新了組合圖像檢索的性能上限，更在于它揭示并修復了多模態大模型在向下游任務遷移時的一道隱形裂痕。

大模型做檢索，不應只是粗暴地將高維的“生成式智慧”壓縮降維成單一的“判別式向量”。從“盲目對齊”到“診斷—生成—內化”的邏輯閉環，大模型的檢索適配正在進入一個強調保留與激發原生推理能力的新階段。

當我們不再一味追求用海量外部數據去“喂”出一個檢索器，而是教會模型用自己的思維鏈去剖析錯題、縫合認知盲區時，它不僅找回了丟失的細粒度感知，更展示了生成與判別兩大范式走向和解的可能。

這或許是大模型在諸多垂直領域真正實現“能力無損適配”的重要一步。

論?鏈接：
https://arxiv.org/abs/2602.01639
項?代碼：
https://github.com/RemRico/Recall

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.