網易首頁 > 網易號 > 正文申請入駐

DeepSeek-OCR 2重磅發布：AI學會“人類視覺邏輯”，以因果流解讀圖片

2026-01-27 14:03:13　來源: 華爾街見聞官方

上海舉報

分享至

DeepSeek發布新一代光學字符識別系統，通過讓AI以類似人類的邏輯順序理解圖像，在視覺識別領域實現技術突破。這一進展可能重塑文檔處理、圖表分析等依賴復雜視覺理解的應用場景。

27日，DeepSeek發布了DeepSeek-OCR 2系統。該系統采用名為DeepEncoder V2的新方法，使AI能夠像人類一樣按照邏輯順序“看”圖像。這項技術的核心創新在于改變了傳統AI處理圖像的方式。DeepEncoder V2讓AI基于圖像含義動態重新排列圖像片段，而非傳統的從左到右剛性掃描。這種方法模仿了人類追隨場景邏輯流的方式。

根據DeepSeek公布的技術報告，DeepSeek-OCR 2在多項關鍵指標上展現出顯著優勢。在OmniDocBench v1.5基準測試中，該模型取得了91.09%的成績，相較于前代DeepSeek-OCR提升了3.73%。

值得注意的是，該模型在保持極高精度的同時，嚴格控制了計算成本，其視覺Token數量被限制在256至1120之間，這一上限與Google的Gemini-3 Pro保持一致。在實際生產環境中，該模型在處理在線用戶日志和PDF預訓練數據時的重復率分別下降了2.08%和0.81%，顯示出極高的實用成熟度。

DeepSeek-OCR 2重磅發布

模擬人類視覺的“因果流”邏輯

根據DeepSeek公布的技術報告，現有的視覺語言模型（VLMs）通常采用固定的光柵掃描順序（光柵掃描順序）處理圖像切片，即機械地從左上角掃描至右下角。DeepSeek團隊指出，這種方式引入了不必要的歸納偏差，與人類視覺感知背道而馳。人類在閱讀復雜文檔、表格或追蹤螺旋線條時，視線是受語義理解驅動的“因果流”，后一次注視往往因果依賴于前一次注視，而非單純的空間坐標移動。

受此認知機制啟發，DeepSeek-OCR 2的核心組件DeepEncoder V2被設計用于賦予編碼器因果推理能力。通過引入可學習的“因果流查詢”（Causal Flow Queries），模型能夠在進入LLM解碼器進行內容解釋之前，先在編碼階段就對視覺信息進行智能重排序。這實際上構建了一個兩級級聯的1D因果推理結構：首先由編碼器在語義上重組視覺Token，隨后由解碼器對有序序列進行自回歸推理。這種設計不僅符合光學文本、表格和公式的非線性布局特征，還有效彌補了2D圖像結構與1D語言建模之間的鴻溝。

棄用CLIP架構，轉向LLM式編碼器

DeepEncoder V2在架構上實施了重大變革，將DeepEncoder中原有的CLIP組件替換為緊湊的LLM式架構（具體為Qwen2-0.5B）。為了實現并行處理，新架構引入了一組可學習的查詢向量，稱為“因果流Token”，并將原始視覺Token作為前綴拼接到序列中。

該架構采用了一種定制化的注意力掩碼（Attention Mask）策略：

視覺Token部分：保留雙向注意力機制，確保模型能夠像CLIP一樣擁有全局感受野，捕捉圖像的整體特征。
因果流Token部分：采用因果注意力機制（類似Decoder-only LLM），每個查詢Token只能關注之前的Token。

通過這種設計，視覺Token保持了信息的全局交互，而因果流Token則獲得了重排序視覺信息的能力。DeepSeek-OCR 2采用了多裁剪策略（Multi-crop strategy），根據圖像分辨率不同，最終輸入LLM的重排序視覺Token總數在256到1120之間。這一數量級顯著低于部分競品高達6000以上的Token消耗，在保證高性能的同時大幅降低了計算開銷。

性能顯著提升與生產環境驗證

在OmniDocBench v1.5的綜合評估中，DeepSeek-OCR 2表現優異。數據顯示，在同樣的訓練數據源下，新模型相較于DeepSeek-OCR基線模型取得了3.73%的性能提升。特別是在閱讀順序（Reading Order）的編輯距離（Edit Distance）指標上，DeepSeek-OCR 2從0.085顯著降低至0.057，這直接驗證了DeepEncoder V2在邏輯重排序方面的有效性。

除了基準測試，DeepSeek還披露了該模型在實際生產管線中的表現。DeepSeek-OCR 2主要服務于DeepSeek-LLMs的在線OCR服務及PDF預訓練數據處理。在沒有真值（Ground Truth）的生產環境中，重復率（Repetition Rate）是衡量質量的核心指標。數據顯示，在處理在線用戶日志圖像時，DeepSeek-OCR 2將重復率從6.25%降低至4.17%;在PDF數據生產中，重復率從3.69%降至2.88%。這表明新模型在生成高質量、低冗余的文本數據方面具備極高的實用價值。

通向原生多模態與真正的2D推理

DeepSeek-OCR 2的發布不僅是一次OCR性能的升級，更具有深遠的架構探索意義。DeepEncoder V2初步驗證了使用語言模型架構作為視覺編碼器的潛力。這種架構天然繼承了LLM社區在基礎設施優化方面的成果，如混合專家（MoE）架構和高效注意力機制。

DeepSeek團隊認為，這為邁向統一的全模態編碼器提供了一條有希望的路徑。未來，單一編碼器可能通過配置特定模態的可學習查詢，在同一參數空間內實現對圖像、音頻和文本的特征提取與壓縮。DeepSeek-OCR 2所展示的“兩個級聯的1D因果推理器”模式，通過將2D理解分解為“閱讀邏輯推理”和“視覺任務推理”兩個互補子任務，或許代表了實現真正2D推理的一種突破性架構方法。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.