![]()
大模型最廣泛的應(yīng)用如 ChatGPT、Deepseek、千問、豆包、Gemini 等通常會連接互聯(lián)網(wǎng)進行檢索增強生成(RAG)來產(chǎn)生用戶問題的答案。隨著多模態(tài)大模型(MLLMs)的崛起,大模型的主流技術(shù)之一 RAG 迅速向多模態(tài)發(fā)展,形成多模態(tài)檢索增強生成(MM-RAG)這個新興領(lǐng)域。ChatGPT、千問、豆包、Gemini 都開始允許用戶提供文字、圖片等多種模態(tài)的輸入。
然而,目前對于 MM-RAG 的應(yīng)用和研究都還處于非常初級的階段,現(xiàn)有的 MM-RAG 研究以及綜述論文主要聚焦于文本和圖像等少數(shù)模態(tài)組合;音頻、視頻、代碼、表格、知識圖譜、3D 對象等多種模態(tài)的組合均可用于檢索增強生成,卻僅有很少的探索和研究。這使得研究者和開發(fā)者難以全面把握 MM-RAG 的技術(shù)脈絡(luò)和廣闊的應(yīng)用空間。
來自華中科技大學、復(fù)旦大學、中國電信、美國伊利諾伊大學芝加哥分校的研究者們共同發(fā)布了一篇全面覆蓋幾乎所有模態(tài)作為輸入和輸出組合的MM-RAG綜述來全面且系統(tǒng)化地闡述這個廣闊的研究和應(yīng)用空間。
![]()
- 論文標題:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and Output
- TechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2
- GitHub 項目主頁: https://github.com/INTREBID/Awesome-MM-RAG
該論文的最大亮點在于其前所未有的廣度:
它首次覆蓋了幾乎所有可能使用的模態(tài)組合作為輸入和輸出,包括文本、圖像、音頻、視頻、代碼、表格、知識圖譜、3D 對象等。
通過這種全面的梳理,作者們首先揭示了 MM-RAG 領(lǐng)域中龐大的潛在輸入 - 輸出模態(tài)組合空間,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 種潛在組合中,目前只有 18 種組合存在已有研究(表 1 中綠色對勾的格子),許多極具應(yīng)用價值的組合 —— 例如 “文本 + 視頻作為輸入,生成視頻作為輸出”—— 仍是一片亟待開拓的藍海。
![]()
表 1:基于輸入 - 輸出模態(tài)組合的 MM-RAG 分類法
在此基礎(chǔ)上,作者們構(gòu)建了一個基于輸入 - 輸出模態(tài)組合的全新 MM-RAG 分類法,不僅系統(tǒng)性地組織了現(xiàn)有研究,還清晰展示了不同 MM-RAG 系統(tǒng)的核心技術(shù)組件(如表 2 所示),為后續(xù)研究提供了統(tǒng)一框架和方法參考。
![]()
表 2不同輸入輸出模態(tài)下多模態(tài) RAG 的核心技術(shù)組件、任務(wù)和應(yīng)用
四大關(guān)鍵階段剖析 MM-RAG 工作流
基于這個新的分類法,該綜述深入分析了MM-RAG系統(tǒng)的工作流程,并將其劃分為四個關(guān)鍵階段(如圖 1 所示):
![]()
圖 1 MM-RAG 的工作流
a)預(yù)檢索 (Pre-retrieval): 數(shù)據(jù)組織和查詢的準備工作。
b)檢索 (Retrieval): 高效準確地從海量多模態(tài)知識庫中找到相關(guān)信息。
c)增強 (Augmentation): 將檢索到的多模態(tài)信息有效地融入到大模型中。
d)生成 (Generation): 根據(jù)輸入和增強信息生成高質(zhì)量的多模態(tài)輸出。
論文詳細總結(jié)了每個階段的常用方法,并討論了對于不同模態(tài)針對性的優(yōu)化策略,為構(gòu)建高性能的MM-RAG系統(tǒng)提供了實用的技術(shù)指導(dǎo)。
一站式指南:
訓練、評估與應(yīng)用前瞻
除了技術(shù)流程,該綜述還提供了構(gòu)建 MM-RAG 系統(tǒng)的一站式指南:
- 訓練策略: 討論了 MM-RAG 系統(tǒng)的訓練方法,以最大化其檢索和生成能力。
- 評估方法: 總結(jié)了現(xiàn)有的MM-RAG 評估指標和 Benchmark,幫助研究者評估系統(tǒng)性能。
- 應(yīng)用與未來: 探討了 MM-RAG 在多個領(lǐng)域的潛在應(yīng)用,并指出了未來的重要研究方向。
作為首個覆蓋所有常見輸入 - 輸出模態(tài)組合、并系統(tǒng)化解析了 MM-RAG 的工作流、組件、訓練、評估等核心技術(shù)的綜述,該論文不僅為研究者提供了索引式的知識入口,也為產(chǎn)業(yè)應(yīng)用提供了全面的技術(shù)參考。論文作者還提供了持續(xù)更新的資源庫,方便讀者追蹤最新進展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.