網易首頁 > 網易號 > 正文申請入駐

從局部到全局：SeRum如何重塑視覺文檔理解的新范式？

2025-05-18 01:40:07　來源: 臆說歷史

廣東舉報

分享至

在浩如煙海的文檔世界中，如何讓機器精準捕捉關鍵信息一直是個難題。傳統方法需要多個復雜環節，就像拆解一個精密的機械鐘表，步驟繁瑣且容易出錯。而今，一種名為SeRum的創新模型悄然興起，它顛覆了這一切。它不再需要先識別所有文字再理解內容，而是直接聚焦于文檔中最關鍵的區域，像人類閱讀文檔一樣，目光自然地被重要信息吸引。這種＂選擇性區域聚焦＂機制不僅提高了文檔理解的準確性，更大幅提升了處理速度。SeRum的出現，或許正標志著視覺文檔理解技術邁入了一個全新時代。

舊路難行

文檔理解技術在過去幾十年取得了長足進步，但傳統方法仍存在不少難以逾越的障礙。這些方法通常采用多階段技術方案，就像搭建一座跨河大橋，需要一根根樁柱逐一打下，每個環節都不能出錯。

傳統的視覺文檔理解系統通常包含多個獨立模塊：首先需要光學字符識別（OCR）引擎檢測并識別文檔中的文本內容，然后按照閱讀順序進行排序，最后通過文檔理解模型對每個詞進行序列標注。這種多步驟的處理流程不僅復雜，還極為耗時耗力。

以現實應用為例，處理一份包含表格、圖表和密集文本的多頁企業財報時，傳統系統需要先識別所有文字（可能高達數千個單詞），再一一排序確定閱讀順序，然后才能進入實際的理解環節。這一過程在2022年之前的主流系統中通常需要數秒甚至數十秒時間，嚴重影響用戶體驗和大規模應用可能性。

更關鍵的是，這種方法過度依賴OCR技術的準確性。現實中，文檔質量參差不齊，許多掃描文檔可能因為光線不足、角度不當或紙張褶皺導致OCR識別錯誤。根據研究數據，即使是商業級OCR系統在處理低質量文檔時，字符錯誤率也可能高達15%以上。一旦OCR出錯，后續所有處理都將受到連鎖影響。

LayoutLM、BERT等代表性模型雖然在文檔理解方面取得了不錯的成績，但它們都難以擺脫對OCR的依賴。數據顯示，在處理復雜布局文檔時，這些模型的準確率與OCR質量呈強相關性，當OCR質量下降時，這些模型的表現會大幅衰減。

另外，傳統方法往往缺乏對關鍵區域的識別能力。它們通常采用全局處理方式，為文檔中的每個元素分配相同的注意力，沒有像人類那樣的選擇性注意力機制。這不僅導致計算資源的浪費，也降低了對關鍵信息的捕捉能力。

例如，在處理一份火車票時，真正的關鍵信息可能只有始發站、終點站、時間、價格等幾個字段，但傳統模型會對整個票面的所有元素進行同等處理，包括背景、裝飾線條和無關文字等。這種處理方式不符合人類的認知習慣，也不夠高效。

在文檔檢索任務中，多階段系統在處理速度上的缺陷尤為明顯。一項對比測試表明，基于OCR的多階段系統處理1000頁文檔的時間是端到端系統的2-3倍，這在實時應用場景中幾乎無法接受。

革新之路

面對傳統方法的種種困境，SeRum模型提出了一種全新思路，它將文檔圖像理解與識別任務轉化為對感興趣視覺標記的局部解碼過程。這種方法好比一位經驗豐富的文檔審閱者，能夠迅速定位關鍵信息而不被無關內容分心。

SeRum的整體架構包括三大核心組件：視覺編碼器、查詢-文本解碼器和內容感知令牌合并模塊。視覺編碼器負責從輸入文檔圖像中提取特征，采用改良版Swin Transformer作為骨干網絡，它能夠更好地捕捉文檔中的局部和全局信息，為后續操作奠定基礎。

查詢-文本解碼器則是SeRum的＂大腦＂，它包含兩個子模塊：查詢解碼器和文本解碼器。查詢解碼器以MaskFormer為靈感，能夠解碼輸入查詢（如任務問題）并通過與圖像特征的交叉注意力機制形成查詢嵌入。通過與上采樣圖像特征的點積，系統能獲取感興趣區域的掩碼。由于查詢數量通常大于所需文本位置數量，系統采用二進制匹配進行配對。

文本解碼器則負責生成最終序列輸出，它通過與編碼視覺標記的交叉注意力機制自動生成文本。這種設計使得SeRum能夠直接從文檔圖像生成所需文本，無需中間的OCR步驟。

SeRum最大的創新在于其內容感知令牌合并機制。在傳統方法中，長視覺令牌序列中的噪聲可能會干擾解碼過程。SeRum的解決方案是：選擇與查詢相關的視覺令牌，同時合并其余令牌。這種機制能夠將注意力限制在由查詢解碼器生成的感興趣區域，同時保留全局信息并增強感興趣區域的信息。

舉例來說，當系統需要從一份收據中提取總金額時，內容感知令牌合并機制會識別出可能包含金額信息的區域（通常位于收據底部并包含＂TOTAL＂或＂金額＂等關鍵詞附近），然后將這些區域的視覺標記保留為高優先級，而將其他區域的標記合并成較低維度的表示。這樣，解碼器就能更專注于關鍵區域，提高準確率并加快處理速度。

從技術實現角度看，SeRum將前景區域（即重要區域）的標記數量定義為總標記數量的一個函數：K = αL，其中α在訓練過程中從0.02到1.0的均勻分布中采樣。在推理階段，α值可以根據性能需求固定。實驗表明，當α設置為0.1（即只保留10%的原始標記作為前景）時，系統能達到最佳性能平衡點。

為了增強模型的位置理解和文本生成能力，SeRum采用了三個子任務的多任務預訓練：查詢到分割、文本到分割和分割到文本。這些預訓練任務使模型能夠更好地理解文檔布局、文本位置以及它們之間的關系。

從處理邏輯上看，SeRum徹底改變了傳統多階段處理流程。在傳統流程中，系統需要先進行OCR識別所有文本，然后確定閱讀順序，最后才能解析文檔結構并提取信息。而SeRum直接從原始文檔圖像出發，通過查詢解碼器確定感興趣區域，再通過內容感知令牌合并機制聚焦這些區域，最后由文本解碼器生成所需輸出。這種端到端的處理方式不僅簡化了流程，還減少了錯誤傳播的可能性。

實驗數據顯示，SeRum在維持較低計算復雜度的同時，顯著提升了處理速度。在文本解碼延遲測試中，當標記保留率為10%時，SeRum的解碼延遲僅為209毫秒，而保留所有標記時則需要306毫秒，提速達32%。

聚焦有道

選擇性區域聚焦技術就像是給機器裝上了一雙會＂挑剔＂的眼睛，只關注文檔中真正重要的部分。這種能力不僅是SeRum模型的一大亮點，也是它能在文檔理解領域脫穎而出的關鍵所在。

傳統的文檔處理系統往往會對整個文檔進行無差別掃描和處理，就像一個初學者面對密密麻麻的合同文本，從第一個字讀到最后一個字，既費時又容易錯過關鍵點。而SeRum則采取了更加智能的方式，通過選擇性區域聚焦技術，能夠準確定位并重點處理文檔中的關鍵信息區域。

具體來說，SeRum通過查詢解碼器和內容感知令牌合并機制實現了這一能力。實驗數據顯示，在處理標準文檔時，真正包含關鍵信息的區域通常只占整個文檔面積的5%左右。SeRum能夠精準識別這些區域，并將計算資源集中在這里，大大提高了處理效率。

以火車票識別為例，在實驗中SeRum對Ticket數據集的處理準確率達到了驚人的99.8%，比第二名的端到端方法Donut高出了超過5個百分點。這種高準確率正是得益于系統能夠準確識別并聚焦票據上的關鍵字段，如始發站、終點站、時間和價格等。

更值得注意的是，SeRum不僅能識別常規打印文本，對于手寫文本或扭曲文本也展現出了驚人的適應能力。在包含手寫內容的DocVQA數據集上，SeRum的ANLS*得分達到77.9%，明顯優于依賴OCR的多階段方法（67.3%）。這一數據充分說明了選擇性區域聚焦技術在處理非標準文本方面的優勢。

在處理速度方面，選擇性區域聚焦技術帶來的提升更是顯著。通過調整令牌保留率（α值），SeRum能夠在準確率和速度之間取得最佳平衡。實驗表明，當α設為10%時（即只保留和處理10%最相關的視覺令牌），模型既能保持高準確率，又能將處理速度提高約32%。在實際應用場景中，這意味著原本需要5秒處理的文檔現在只需3.4秒左右，大大提升了用戶體驗。

多任務預訓練策略也是SeRum性能優異的重要原因。通過同時進行＂查詢到分割＂、＂文本到分割＂和＂分割到文本＂三種預訓練任務，SeRum能夠更好地理解文檔中文本的位置和語義關系。實驗數據顯示，完整的三階段預訓練使模型在SROIE數據集上的F1得分從59.3%提升到了85.8%，提升幅度超過26個百分點。

值得一提的是，SeRum對不同類型文檔的適應能力很強。無論是結構化表格、半結構化收據還是非結構化合同文本，SeRum都能有效識別并提取關鍵信息。這種通用性使其在實際應用中具有很大優勢。

實戰表現

紙上談兵終歸是紙上談兵，真正的技術價值要在實際應用中才能體現。SeRum模型在多個真實場景下的表現不僅驗證了其技術優勢，也展示了其在解決實際問題方面的巨大潛力。

在文檔信息提取任務上，SeRum的表現尤為亮眼。以三個廣泛使用的基準數據集為例：在Ticket數據集上，SeRum-prompt方法達到了99.2%的F1得分和99.8%的準確率，幾乎完美解決了這一任務；在CORD數據集上，SeRum-prompt取得了84.9%的F1得分和91.5%的準確率，超過了第二名的端到端方法Donut；而在SROIE數據集上，SeRum的F1得分比多階段方法LayoutLMv2高出了24個百分點，達到了85.8%。

這些數字背后是SeRum在實際場景中的強大能力。例如，在火車票識別中，即使面對不同背景色、不同打印字體和模糊掃描的票據，SeRum依然能準確識別出關鍵信息。在收據識別中，SeRum能同時處理多種語言、不同格式和各種打印質量的收據，并精準提取出商品名稱、價格、總金額等信息。

文檔視覺問答是另一個展示SeRum能力的重要場景。在DocVQA基準測試中，SeRum取得了71.9%的ANLS得分，雖然略低于基于OCR的LayoutLMv2（78.1%），但在包含手寫文本的ANLS*測試中，SeRum以77.9%的得分明顯超過了LayoutLMv2（67.3%）。

這種差異很好地說明了SeRum的優勢所在。當文檔中包含OCR難以準確識別的內容（如手寫文字）時，傳統多階段方法往往會因OCR錯誤而失敗，而SeRum憑借其端到端的處理方式和選擇性區域聚焦能力，能更好地理解和處理這類內容。

SeRum的通用能力在文本識別任務中也得到了驗證。在CTW-1500文本檢測和識別數據集上，SeRum取得了41.8%的F1得分。雖然這一成績不及專門針對文本檢測優化的SPTS v2（63.6%），但考慮到SeRum是一個通用文檔理解模型而非專用文本檢測器，這一表現已經相當不錯，也證明了SeRum在處理彎曲文本、藝術字體等復雜文本形式上的能力。

在實際應用案例中，SeRum展現出了更多實用價值。例如，在處理企業文檔自動化流程中，SeRum能夠從各種格式的發票、合同和表格中提取關鍵信息，實現自動錄入和比對。在一個包含5000份發票的測試中，SeRum的信息提取準確率達到了93.7%，處理時間比傳統OCR方法快了近40%。

另一個有趣的應用是在歷史文檔數字化項目中。面對褪色、破損的古籍和手稿，傳統OCR方法往往束手無策，而SeRum憑借其對局部特征的敏感性，能夠更好地識別和理解這些難處理的文本。在一個包含19世紀手寫信件的測試中，SeRum的文本識別準確率比最好的OCR方法高出了15個百分點。

SeRum的生成方式也很有特色。它提供了兩種生成機制：SeRum-total和SeRum-prompt。SeRum-total采用類似Donut的方法，生成包含所有關鍵信息的完整字符串序列；而SeRum-prompt則使用鍵作為查詢，并行生成每條信息。實驗表明，后者在復雜數據集上表現更好，尤其在CORD數據集上的提升最為明顯。

值得一提的是，SeRum還能處理許多傳統方法難以應對的復雜格式文本，如WordArt、彎曲文本等。這一點從測試圖像中可以清晰看出：SeRum能夠正確識別并提取＂ARTHUR KAYxBR0＂等藝術字體文本和＂ILKLEY CIVIC SOCIETY＂等彎曲文本中的信息，這在傳統方法中往往需要專門的處理模塊才能實現。

參考資料

Cao， H.， Bao， C.， Liu， C.， Chen， H.， Yin， K.， Liu， H.， Liu， Y.， Jiang， D.， Sun， X. （2022）. Attention Where It Matters: Rethinking Visual Document Understanding with Selective Region Concentration.
Xu， Y.， Xu， Y.， Lv， T.， Cui， L.， Wei， F.， Wang， G.， Lu， Y.， Florencio， D.， Zhang， C.， Che， W.， Zhang， M.， Zhou， L. （2022）. LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding.
Park， G.， Oh， Y.， Nguyen， S. V.， Nguyen， H. T.， Lee， C. Y.， Yoo， J.， Koo， J.， Choi， J.， Jang， Y.， Jeong， J.， Moon， S. （2022）. Donut: Document Understanding Transformer without OCR.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.