![]()
![]()
在產業智能化進程中,如何高效融合企業專有知識資產,構建領域專屬認知引擎,是企業邁向智能決策與高效運營的關鍵。然而,傳統檢索增強生成(RAG)技術受限于語言單模態處理能力,僅能實現文本知識庫與文本查詢之間的淺層理解,難以滿足復雜業務場景的需求,在實際應用中暴露出兩大缺陷:
信息表征缺失:忽略知識庫中多模態富文檔的視覺語義信息,如版面結構、圖表關系、公式特征等;
模態交互受限:無法支持圖文混合查詢、跨模態關聯檢索等多樣化需求。
針對以上痛點,我們發布了紫東太初多模態檢索增強生成框架—Taichu-mRAG。該框架基于統一多模態細粒度檢索引擎和紫東太初多模態大模型,旨在提升內容理解與生成質量,實現對多模態信息的協同感知、精準檢索與深度推理問答。
![]()
Taichu-mRAG 在多模態富文檔理解、多模態細粒度實體屬性問答兩大權威基準上取得突破性進展:
![]()
- 在 M3DocVQA 數據集上端到端問答準確率比開源SOTA M3DocRAG相對提升33%,多模態檢索召回率相對提升12%;
- 在 E-VQA 數據集上端到端問答準確率比開源SOTA EchoSight相對提升9%,多模態檢索召回率相對提升9%。
![]()
3.1 Taichu-mRAG整體架構
面向新一代智能問答場景,Taichu-mRAG 整體架構包含四大核心模塊:Query理解模塊、多模態混合索引召回模塊、多模態精排模塊、多模態增強答案生成模塊。
![]()
Query理解模塊
該模塊根據用戶Query 及對話上下文深度挖掘用戶需求,判斷是否需要觸發全文理解,并結合對話歷史對用戶 Query 進行智能擴展、改寫,使得改寫后的 Query 可以更精準地檢索到相關知識。
多模態混合索引與召回模塊
該模塊包含特征抽取、索引建庫及多路召回。在知識庫構建過程中,我們先對富文檔進行多維度理解、分塊,抽取出子級檢索單元塊;包括基于版面識別的區域級分塊、基于純視覺信息的頁面級分塊、基于文本語義的滑窗分塊;之后,通過多模態Embedding模型抽取這些檢索分塊的語義特征,在統一語義空間內進行 ANN 索引建庫。當收到改寫的 Query 后,我們采用多路召回,并行執行四路檢索:跨模態索引、關鍵Term倒排索引、基礎語義索引、知識擴展語義索引,高效召回和用戶需求最相關的 TopN 知識片段。
多模態精排模塊
多模態精排模塊負責對召回的 TopN 知識片段進行精細化排序,更加關注細粒度語義信息,有利于處理高難度場景,從而進一步提升多模態大模型的問答精準度。該模塊采用單塔結構,深度融合Query、文本、圖像、布局特征等信息,確保排序結果更加精準穩定。
多模態答案生成模塊
答案生成模塊根據前序模塊給出的相關參考知識和用戶原始Query,聯合生成最終的答案,并給出答案的參考片段,便于用戶進行答案溯源。當候選片段無法覆蓋答案時,多模態大模型會根據用戶自定義配置選擇拒答或者依賴多模態大模型自身知識進行開放式回答。這一模塊不僅生成準確的答案,還提供了答案的來源和依據,增強了答案的可信度和可解釋性。
3.2 Taichu-mRAG多模態檢索
Taichu-mRAG 的多模態檢索引擎采用了雙層級父子關聯索引機制和多路異構特征聯合檢索技術:
雙層級父子關聯索引機制
基于多模態結構感知的層級式分塊技術可有效解決多模態數據檢索中的粒度適配與上下文整合難題。雙層級父子索引技術核心是父級語義單元、子級檢索單元的智能分塊和關聯策略。
子級檢索單元為基礎單元,核心價值在于根據用戶 Query精準召回語義最相關的細粒度語義片段,確保召回的精準性;子級檢索單元可包含多種單元形式,如基于滑動窗口的文本片段單元、 圖像單元、表格單元、圖文混合單元等。父級語義單元為跨模態知識容器,核心價值是為關聯的子級檢索單元提供完整的上下文信息輸入給大模型,提升大模型的回答精度和完整度。
父、子語義單元的切分及關聯映射核心在于對以下多種策略的靈活組合: (1)語義理解分塊:基于句子、段落、圖像、圖表多模態 Embedding 計算相似度,當連續內容相似度低于特定閾值時則進行切割。(2)結構化分塊:基于布局分析技術,對PDF、PPT、Markdown 等文檔按章節、標題或頁面、語義塊邊界進行切割。(3)滑動窗口分塊 :設置字符重疊范圍及滑動窗口大小,通過滑動窗口對文檔內容進行切割。
多路異構特征聯合檢索
Taichu-mRAG 檢索引擎采用多路異構特征聯合索引的召回機制,在多模態、復雜富文檔理解場景下形成互補增強的檢索矩陣,保證了檢索系統的精準性和產業落地可行性,多路異構特征索引概況如下:
![]()
其中,多模態Embedding模型充分利用多模態大模型的語義理解能力,經過多粒度多階段學習,實現多種模態在統一空間的語義表征,支持文本、圖像、圖表、公式等多種混合形式。模型有效緩解了模態偏差問題,同時也具備出色的單模態語義表征能力。
3.3 紫東太初多模態大模型
紫東太初多模態大模型(Taichu-MLLM)具備強大的視覺理解能力和若干特性,支持動態分辨率、圖文及多語言輸入、圖文混排模式等。同時為了更好促進Taichu-mRAG的產業落地應用,針對落地應用過程中的重點需求,我們對Taichu-MLLM 特定能力進行了重點優化:
- 擴展上下文長度到128k,支持超長文本和多張高清圖片輸入;
- 優化拒答指令遵循能力,提升拒答精度,具備準確、穩定的拒答能力;
- 優化溯源能力,模型同時生成答案和引用來源,便于用戶溯源查證,提高答案可解釋性。
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.