網易首頁 > 網易號 > 正文申請入駐

Deepseek V4的最后一塊拼圖來了？全新OCR架構超越視覺壓縮

2026-01-27 18:34:56　來源: DeepTech深科技

北京舉報

分享至

1 月 27 日，DeepSeek 發布了《DeepSeek-OCR 2： Visual Causal Flow》論文，并同步開源新一代文檔理解模型。這是該公司在 2026 年 1 月的第三次技術更新：月初完善了 R1 論文的技術細節，中旬開源了 Engram 記憶模塊，月末又推出 OCR 2。如此密集的節奏，也讓外界猜測春節前后可能亮相的 DeepSeek-V4 的輪廓逐漸成形。

圖 | Deepseek 最新論文：視覺因果流（來源：GitHub）

在討論 OCR 2 的更新前，不妨先回溯去年 10 月的初代版本。雖然名字里帶著“OCR”（Optical Character Recognition，光學字符識別），但 DeepSeek 開源的初代模型瞄準的并非傳統意義上的字符識別，而是想解決大模型長期面臨的一個瓶頸：超長上下文帶來的算力壓力。

由于大語言模型的自注意力機制計算復雜度隨序列長度呈平方級增長，當上下文從千級 token 擴展到萬級，計算量可能暴增百倍。處理上百頁的財報或整本書時，開發者往往陷入兩難：要么切片分段輸入，犧牲全局連貫性；要么硬扛長序列，付出高昂的計算成本與延遲。

DeepSeek 團隊選擇換了個思路：既然文本 token 太昂貴，能否用圖像來“打包”同等信息？他們發現，將一頁文檔渲染為圖像后，視覺編碼器提取的視覺 token 數量遠少于等效文本，卻能完整保留文字與版式結構。這套“上下文光學壓縮”（Contextual Optical Compression）技術，本質上是將一維的文本序列“折疊”進二維像素空間，借圖像的天然空間結構實現高效壓縮。

而 OCR 從圖像中還原文本的任務效果，恰好可以成為驗證壓縮質量的理想標尺：還原越準，說明壓縮越有效。

最后的成果確實令人矚目。在 10 倍壓縮率下，文本還原準確率仍達 97％；即便壓縮至 20 倍，準確率也保持在 60％左右。一張 1,024×1,024 的文檔圖像，傳統方案需數千 token，DeepSeek-OCR 僅用 256 個即可表征，效率奇高。

但初代 OCR 也存在明顯短板。它的核心編碼器 DeepEncoder 采用 SAM（Segment Anything Model，分割萬物模型）加 CLIP（Contrastive Language-Image Pre-training，對比語言圖像預訓練）的雙模塊設計：SAM 負責局部細節感知，CLIP 負責全局語義理解，中間嵌入 16 倍壓縮層。這套架構雖然高效，但在處理圖像時遵循固定的空間順序——無論文檔內容如何，視覺 token 總是按從左上到右下的柵格排列。

也就是說，不管面對的是論文、發票還是漫畫，模型都像掃描儀一樣逐字逐行，從左到右地機械掃描。這顯然和人類讀文檔的方式不同，我們會根據版面布局、語義結構進行自然跳轉：先看標題，再看摘要，表格要整體理解，圖注和正文有對應關系。

此次發布的 OCR 2 要解決的正是這個問題。新架構 DeepEncoder V2 做了一個關鍵改動：用一個小型語言模型（基于 Qwen2-0.5B，約 5 億參數）替代了原有的 CLIP 模塊，從而引入了“因果”機制。

（來源：論文）

具體而言，V2 把視覺 token 分成了兩組處理：第一組是原始視覺 token，它們之間可以互相“看到”，保證模型對整張圖有全局視野；第二組是新引入的“因果流查詢”（causal flow query），它們有嚴格的先后順序。每個查詢只能看到它前面的信息，就像人逐步閱讀文檔時，后面理解的內容會基于前面已讀的內容來組織。

這種設計讓模型可以根據圖像內容動態調整“閱讀順序”。最終送入解碼器的只有第二組 token，它們已經按語義邏輯重排過，而非機械的空間順序。論文把這稱為“視覺因果流”（visual causal flow）——讓 2D 圖像理解通過兩級級聯的 1D 因果推理來實現。

圖 | 混合注意力掩碼 (Attention Mask) 設計（來源：論文）

這種改變帶來的提升是多維度的。

在 OmniDocBench v1.5 測試集上（涵蓋雜志、論文、研究報告等 9 類文檔），OCR 2 總體得分 91.09％，比前代提升 3.73 個百分點。更能說明新架構價值的是“閱讀順序”指標：編輯距離從 0.085 降到 0.057，意味著模型對文檔結構的判斷更準確。它確實在學著按語義而非空間來組織信息。

圖 | OmniDocBench v1.5 核心評測結果（來源：論文）

同時，OCR 2 延續了前代的高壓縮率優勢，視覺 token 上限僅 256–1,120 個，而多數同類模型需要超過 6,000 個。在文本、公式、表格等細分類別上均有 2–6 個百分點的提升，與 Gemini-3 Pro 在相近 token 預算下的對比中（文檔解析編輯距離 0.100 vs 0.115），OCR 2 也占據優勢。

得益于此，OCR 2 擁有了更廣泛的應用場景，它可以用來處理布局復雜、結構多變的文檔。例如學術論文中多欄混排加公式表格、財務報表里數據圖表與文字說明交織、雜志版面的圖文混搭——這些曾經讓初代 OCR 捉襟見肘的場景，現在恰恰是因果視覺流架構的用武之地。

不過，新架構并非完美。論文坦承，在報紙類文檔上，OCR 2 的識別準確率仍有明顯差距，甚至識別性能略低于一代模型。團隊歸因于兩點：一是報紙版面密集、文字量大，當前 token 上限可能不足（可通過增加局部裁剪緩解）；二是訓練數據中報紙樣本僅 25 萬張，覆蓋有限。這再次印證了端到端模型的通病：性能高度依賴訓練數據的廣度與質量。

此外，有研究者通過語義破壞實驗發現，DeepSeek-OCR 系列的高分部分源于語言先驗——模型有時是“猜”出內容，而非真正“看清”。當輸入被刻意打亂時，性能會顯著下滑。這意味著在識別生造詞、嚴重污損的掃描件等邊緣場景中，其魯棒性可能仍不及傳統管道式 OCR。

回看 1 月的三次技術更新，一條清晰的主線逐漸浮現：DeepSeek 正系統性地探索如何讓模型在不同任務中“更聰明地工作”，而非一味堆疊計算量。

月初，團隊將 R1 論文從 22 頁大幅擴充至 86 頁，揭示其推理能力的核心來源。并非依賴海量人工標注數據，而是通過強化學習在“做題－反饋－改進”的循環中自主學會思考與糾錯。這為低成本訓練強推理模型開辟了一條新路徑。

中旬，梁文鋒署名的 Engram 論文進一步延伸這一思路：既然人名、術語等靜態知識無需每次重新思考，何不將其存為可檢索的記憶表？實驗表明，將約 20％的參數用于構建這類外部記憶、80％保留給動態計算，在知識問答、推理與代碼任務上反而表現更優。

到了月末，OCR 2 則將這一哲學延伸至視覺領域。它不再讓模型機械地按空間柵格掃描文檔，而是引入因果機制，使其能像人類一樣根據語義結構動態調整“閱讀順序”。

三次更新看似分別切入推理、記憶與視覺，實則共同回應一個問題：模型在哪些環節可以少算多查，或重組流程以提升效率？R1 證明復雜推理可借強化學習涌現，Engram 驗證靜態知識適合查表替代計算，OCR 2 則展示 2D 圖像理解能通過因果排序適配 1D 語言模型的處理范式。這種結構優化的轉向，或許正是 DeepSeek 為下一代模型鋪就的底層邏輯。

如果傳聞屬實，計劃于 2 月中旬春節前后發布的 DeepSeek-V4，或將首次整合這三條技術線索：融合 R1 的推理框架、Engram 的記憶架構與 OCR 2 的視覺理解能力，打造一個更高效處理文本、代碼與復雜文檔的多面手。不過最終體驗如何，我們還需等待春節它的真正亮相。

1.https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.