![]()
當你在網上搜索"如何制作蛋糕"時,搜索結果可能包含純文字教程、單獨的圖片,或者文字和圖片交錯排列的詳細指南。對人類來說,理解這些不同格式的內容毫不費力,但對AI來說,這卻是一個巨大的挑戰。如何讓AI像人類一樣自然地理解和檢索這些"混合內容",一直是計算機科學領域的難題。
最近,中國人民大學信息學院的張承昊、董關廷、楊鑫宇和竇志成教授團隊在這個問題上取得了重要突破。他們的研究成果《Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation》于2025年10月發表在計算機科學頂級會議WWW 2026上。有興趣深入了解的讀者可以通過arXiv:2510.17354查詢完整論文。
這項研究的核心是開發了一個名為Nyx的AI系統,就像一個超級圖書管理員,不僅能讀懂文字,還能"看懂"圖片,更重要的是,它能理解文字和圖片混合在一起時所表達的完整含義。這種能力被研究團隊稱為"通用檢索增強生成"(URAG),它解決了現實世界中最常見卻最復雜的信息處理需求。
研究團隊發現,現有的AI系統在處理混合內容時存在嚴重缺陷。傳統方法要么把文字和圖片分開處理,就像讓一個人蒙著眼睛讀書、捂著耳朵看畫一樣,要么只用文字去搜索圖片內容,這種做法就像只憑聲音去尋找一部電影,往往錯失關鍵信息。更重要的是,這些系統完全忽略了圖片和文字在同一頁面中的空間位置關系和邏輯聯系,而這些關系對理解內容的完整含義至關重要。
為了訓練這個"超級管理員",研究團隊面臨的第一個挑戰是缺乏合適的訓練材料。現實中的網頁內容雖然豐富多樣,但要讓AI學會處理這些內容,需要大量標注好的問答對作為"教材"。研究團隊創造性地開發了一套四步驟的自動化流程來構建NyxQA數據集,就像建造一個巨大的圖書館一樣。
一、從真實網頁中"淘金":構建混合內容訓練庫
研究團隊首先從OBELICS數據集中采樣了真實的網頁文檔,這些文檔就像真實世界信息的縮影,包含了各種可能的文字和圖片組合方式。他們將每個網頁文檔切分成較小的片段,每個片段包含不超過200個文字標記,同時保持內容的語義完整性。這個過程就像把一本厚厚的百科全書拆分成一個個獨立卻完整的條目,既便于處理,又不會破壞信息的完整性。
通過這種方法,研究團隊最終構建了一個包含46741個文檔片段的混合模態語料庫。這個語料庫的特殊之處在于,它真實反映了網絡內容的多樣性分布,包含了純文字內容、單獨圖片、文字圖片配對,以及文字圖片任意交錯的復雜格式。這種真實性確保了AI系統能夠適應現實世界中遇到的各種情況。
接下來,研究團隊從這個龐大的語料庫中精心挑選了10000個具有代表性的文檔片段,作為生成問答對的基礎材料。這個選擇過程采用了分層采樣策略,確保各種模態組合的內容都有適當的代表性,就像確保圖書館的藏書涵蓋各個學科一樣。
二、AI"老師"生成問答對:讓機器教機器
有了原始材料后,研究團隊使用強大的視覺語言模型作為"AI老師",為每個文檔片段生成最多五個問答對。這個過程就像讓一位博學的老師閱讀每一份材料,然后提出相關問題并給出答案。
對于只包含文字的文檔,AI老師會專注于文本內容,生成能夠完全基于該文檔回答的問題。而對于包含圖片的文檔,AI老師會特別關注視覺內容,生成涉及圖片信息的問題。為了確保問題的準確性,研究團隊設計了特殊的標記系統,用""這樣的標簽來指代文檔中的第k張圖片,確保問題和答案之間的對應關系清晰明確。
這個過程產生了大量原始的問答對,但就像初稿一樣,這些內容還需要進一步的精煉和完善。原始生成的問答對存在各種質量問題,比如問題可能過于依賴上下文信息,或者答案可能過于冗長難以評估,還可能出現圖片標簽指向不存在圖片的錯誤。
三、三重過濾機制:確保問答質量
為了確保訓練數據的高質量,研究團隊設計了一個三階段的后處理流程,就像工廠的質量控制流水線一樣,層層把關確保最終產品的優良品質。
錯誤過濾階段就像第一道安檢,主要清除明顯的錯誤。研究團隊使用基于規則的過濾器,自動識別和刪除那些明確引用特定文檔的問題,比如"在這個文檔中提到了什么"這類過于依賴上下文的問題。同時,系統會驗證圖片標簽的正確性,確保問題中提到的圖片在對應的文檔中確實存在,避免答非所問的情況。
問答精煉階段則像文稿編輯一樣,對通過初步篩選的問答對進行進一步優化。研究團隊再次使用視覺語言模型,對每個問答對進行壓縮和改進,去除冗余信息,提高表達的清晰度和準確性。這個過程確保每個問題都簡潔明了,每個答案都準確且與對應的"黃金文檔"高度相關。
選項生成階段是最后的完善步驟,研究團隊使用大語言模型為每個問題生成三個語義上合理但事實上錯誤的干擾選項。這些干擾選項不是隨意編造的,而是經過精心設計,在語法和邏輯上都說得通,只是在事實細節上有所偏差。這種設計確保AI系統在學習過程中不僅要理解正確答案,還要學會區分細微的差別,提高判斷的精確性。
經過這三重處理,研究團隊最終獲得了高質量的NyxQA數據集,這個數據集包含了多樣化的混合模態問答對,真實反映了現實世界的信息需求。
四、"硬核"負樣本挖掘:讓AI學會精準識別
為了讓Nyx學會更精確的檢索,研究團隊還進行了"硬負樣本挖掘",這個過程就像訓練一個偵探學會從眾多相似的線索中找出真正有用的證據。
具體來說,對于每個問題,研究團隊首先確定其對應的正確文檔作為"正樣本"。然后使用現有的檢索模型從整個語料庫中搜索最相關的前10個文檔,從這些看似相關但實際不正確的文檔中選擇5個作為"硬負樣本"。這些硬負樣本的特點是與問題高度相關,但又不是正確答案,這樣的對比學習能讓AI系統學會更精細的區分能力。
這種訓練方式就像讓學生在眾多相似的選項中選擇正確答案,比簡單的對錯判斷更具挑戰性,也更能提升學習效果。通過這種方法,Nyx學會了在海量信息中精準定位最相關內容的能力。
五、兩階段訓練策略:從通才到專才的進化
Nyx的訓練過程采用了兩階段策略,就像培養一個全能選手的過程,先進行全面的基礎訓練,再針對特定任務進行專門優化。
第一階段是預訓練階段,研究團隊將NyxQA數據集與多個公開的檢索數據集結合,對Nyx進行大規模的對比學習訓練。這個階段就像讓學生接受通識教育,學習處理各種不同類型的內容。為了平衡檢索效果和計算效率,研究團隊還融入了Matryoshka表示學習技術,這種技術就像制作俄羅斯套娃一樣,讓模型在不同的表示維度下都能保持良好的性能。
由于現實世界的檢索任務仍然以文本為主,研究團隊在預訓練中還加入了額外的純文本數據集,包括HotpotQA、2WikiMultiHopQA和MuSiQue等,以增強模型的文本理解能力。這種設計確保Nyx既能處理復雜的混合內容,也能在傳統的文本檢索任務中表現出色。
第二階段是監督微調階段,這是Nyx訓練的關鍵創新點。研究團隊發現,僅僅有好的檢索能力還不夠,檢索結果還必須真正有助于下游的生成任務。因此,他們設計了一種基于視覺語言模型反饋的微調方法。
具體而言,對于每個查詢,研究團隊首先使用預訓練的Nyx檢索前K個候選文檔,然后使用滑動窗口策略將這些文檔分組,每組包含連續的L個文檔。接著,將每組文檔與查詢一起輸入到視覺語言模型中,生成答案。系統會選擇第一個能夠產生正確答案或超過預設質量閾值的文檔組,將該組的第一個文檔標記為正樣本,其余文檔作為負樣本。
這種方法的巧妙之處在于,它不是基于人工標注的"理想"答案,而是基于下游模型的實際"偏好"。這樣訓練出來的檢索器能夠更好地與生成模型配合,就像訓練一個專門為某位廚師提供食材的助手,不僅要選擇高質量的食材,還要選擇這位廚師最擅長處理的食材類型。
六、架構設計:構建統一的多模態理解框架
Nyx的架構設計基于Qwen2.5-VL-3B-Instruct模型,這是一個成熟的視覺語言模型。研究團隊將其改造成專門的檢索器,就像將一個博學的學者培訓成專業的圖書管理員。
系統的核心思想是將不同模態的內容(文字、圖片或它們的組合)都映射到同一個向量空間中,在這個空間中,內容相似的項目會彼此靠近,而不相關的項目則距離較遠。具體來說,對于輸入的任何混合模態內容,系統都會使用最后一個特殊標記的隱藏表示作為全局嵌入向量。
為了處理不同長度和復雜度的輸入,研究團隊在每個查詢前添加了指令字符串,這些指令就像給AI助手的工作說明書,告訴它應該如何理解和處理當前的任務。無論是純文本、純圖片還是圖文混合的內容,都能在這個統一框架下得到一致的處理。
訓練目標使用了InfoNCE損失函數配合Matryoshka表示學習。InfoNCE損失通過對比學習的方式,讓模型學會將相關的查詢和文檔在向量空間中拉近,同時將不相關的內容推遠。而Matryoshka表示學習則確保即使在降維的情況下,模型仍能保持良好的性能,這就像制作一幅畫,既要在大畫布上好看,縮小后在小畫布上也要清晰可辨。
七、實驗驗證:全方位性能測試
研究團隊設計了全面的實驗來驗證Nyx的性能,測試范圍涵蓋了從傳統文本檢索到最新的混合模態檢索各個方面。實驗就像對一個全能運動員進行各項體能測試,確保其在不同項目中都能表現出色。
在文本檢索任務中,盡管mmE5擁有110億參數的龐大模型,Nyx憑借僅30億參數的輕量級架構仍然在HotpotQA和Bamboogle數據集上取得了顯著優勢,性能提升分別達到9%和6%。這種結果證明了針對性訓練的重要性,就像一個專業的馬拉松選手可能比身材更壯的舉重選手跑得更快一樣。
在多模態任務中,Nyx的表現更加突出。在MMQA數據集上,經過反饋微調的Nyx將F1分數從35.97%提升至44.50%,在NyxQA數據集上準確率從74.83%躍升至81.83%。這些提升不僅在統計上顯著,在實際應用中也意味著用戶能獲得更準確、更有用的檢索結果。
研究團隊還進行了McNemar統計測試來驗證性能差異的顯著性。結果顯示,mmE5與Nyx-pretrained之間的比較產生了19.0631的測試統計量,p值小于0.0001;Nyx-pretrained與最終版Nyx之間的比較得到15.7538的測試統計量,p值為0.0001。這些數據有力證明了各個改進步驟的有效性。
八、深入分析:揭示性能提升的秘密
為了理解Nyx成功的原因,研究團隊進行了多項深入分析,這些分析就像解剖一個成功案例,找出其中的關鍵要素。
數據規模影響分析揭示了一個重要發現:訓練數據的規模與模型性能之間存在對數線性關系,這與之前的研究發現一致。隨著訓練樣本從2880個增加到124萬個,NyxQA的準確率穩步提升,這條曲線幾乎完美符合對數函數y = 0.1204 * log(x) + 0.1041。這個發現對未來的模型改進具有重要指導意義,表明繼續增加高質量訓練數據仍能帶來性能提升。
檢索文檔數量對生成質量的影響分析顯示,增加輸入文檔的數量確實能提升所有檢索器的表現,但收益會逐漸遞減。Nyx在各種文檔數量設置下都consistently outperformed其他方法,特別是在文檔數量較少時仍能保持良好性能,這表明其檢索質量的優越性。
跨生成器泛化能力測試是另一個重要發現。雖然Nyx是基于Qwen2.5-VL-7B的反饋進行微調的,但它在不同大小的InternVL3模型上都表現出良好的泛化能力。這種跨架構的泛化能力證明了Nyx學到的不是特定模型的偏好,而是更普遍的信息相關性模式。
Matryoshka表示學習的效果分析展示了這項技術的實用價值。1024維的嵌入表示能達到與2048維幾乎相同的性能,同時將存儲需求減半。即使是512維和256維的版本也能保持強勁的性能,準確率分別為78%和74.67%。這種靈活性使得Nyx能夠適應不同的資源約束環境。
九、案例研究:從理論到實踐的驗證
研究團隊通過具體案例展示了Nyx相比其他方法的優勢。在一個關于演員Felicia Day的多模態問答案例中,三種不同方法的表現形成了鮮明對比。
當問題詢問"Felicia Day面前的物體是什么"時,mmE5檢索到的文檔雖然包含相關信息,但主要關注"面部"這個詞匯,錯過了查詢的主要對象。檢索到的內容是關于電影《Cursed》的介紹,雖然提到了Felicia Day,但無法回答關于她面前物體的具體問題。
Nyx-pretrained的表現有所改進,正確識別出了"Felicia Day"這個關鍵實體,但檢索到的文檔主要是文字描述,缺乏能夠直接回答問題的視覺信息。雖然文檔內容更相關,但仍無法為生成準確答案提供充分證據。
最終版本的Nyx展現出了顯著的優勢,它不僅正確識別了查詢實體,還檢索到了包含Felicia Day圖片的文檔,圖片清晰顯示她面前有麥克風。這種多模態信息的完美結合使得生成模型能夠給出準確的答案"麥克風"。
這個案例生動說明了真正的多模態理解不僅需要處理不同類型的內容,更重要的是要理解這些內容之間的關聯關系,找到能夠真正回答問題的關鍵信息。
十、超越黃金文檔:從偏好學習中獲得啟發
研究中一個特別有趣的發現是關于"黃金文檔"的重新思考。傳統上,研究人員會人工標注每個問題對應的"標準答案文檔",然后訓練模型去檢索這些文檔。但Nyx的實驗顯示了一個重要洞察:生成模型真正"偏好"的文檔可能與人工標注的黃金文檔不同。
在NyxQA數據集上的分析顯示,每個問題雖然都有對應的生成來源文檔,但這些文檔在實際推理過程中并不總是導致正確答案。通過反饋學習,Nyx發現了那些雖然語義上可能不是最相關,但能夠真正幫助生成模型產生正確答案的文檔。這種發現帶來了7個百分點的準確率提升。
這個發現挑戰了傳統的檢索評估方式,提示我們應該更多關注檢索結果的實用性而非表面的相關性。就像選擇學習材料時,最好的教材不一定是最權威的,而是最適合學習者理解的那本。
通過檢索正確性與答案正確性關系的量化分析,研究團隊發現了兩個重要趨勢:首先,檢索到更多黃金文檔確實會提高答案準確率;其次,即使檢索到的不是黃金文檔,仍有近一半的答案是正確的,這展現了視覺語言模型的魯棒性。這些發現為未來的檢索器設計提供了重要指導,即應該更加重視與下游任務的協同優化。
說到底,這項研究的意義遠超技術層面的突破。在信息爆炸的時代,我們每天都在與各種形式的內容打交道,從社交媒體的圖文并茂,到工作中的多媒體報告,再到學習時的圖解教材。Nyx代表的技術方向為構建更智能、更自然的信息助手鋪平了道路。
這個"超級圖書管理員"的出現,預示著我們即將迎來一個全新的信息交互時代。未來的AI助手將不再局限于理解單一類型的內容,而是能夠像人類一樣自然地處理復雜的混合信息,為我們提供更精準、更有用的幫助。無論是學生查找學習資料,專業人士搜索工作信息,還是普通人尋找生活指南,這項技術都將讓信息獲取變得更加高效和便捷。
研究團隊已經將Nyx的代碼開源,感興趣的開發者可以通過GitHub倉庫SnowNation101/Nyx獲取完整實現。這種開放態度體現了學術界推動技術進步的使命感,也為這項技術的進一步發展和應用奠定了基礎。
Q&A
Q1:Nyx系統相比現有的AI檢索工具有什么特別之處?
A:Nyx最大的特點是能同時理解文字和圖片混合在一起的內容,就像一個真正懂得閱讀圖文并茂資料的智能助手。現有系統通常只能分別處理文字或圖片,或者只用文字去搜索圖片,而Nyx能理解文字圖片之間的空間位置關系和邏輯聯系,這讓它在處理現實世界的復雜信息時更加準確有效。
Q2:NyxQA數據集是如何構建的,為什么要專門建立這個數據集?
A:研究團隊開發了四步驟流程來構建NyxQA數據集:首先從真實網頁采樣混合內容,然后用AI生成問答對,接著通過三重過濾確保質量,最后進行硬負樣本挖掘。專門建立這個數據集是因為現有數據集都無法很好地反映現實世界中文字圖片任意組合的復雜情況,而NyxQA包含了46741個真實網頁片段,真正模擬了日常信息檢索的需求。
Q3:普通用戶什么時候能用上Nyx這樣的技術?
A:雖然研究團隊已經開源了Nyx的代碼,但要讓普通用戶直接使用還需要時間。目前這項技術更多是為開發者和研究人員提供基礎,未來可能會集成到搜索引擎、智能助手或者教育平臺中。考慮到技術的成熟度和實驗效果,預計在未來1-2年內我們就能在一些應用中看到類似功能的出現。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.