henry 發自 凹非寺
量子位 | 公眾號 QbitAI
剛剛,DeepSeek開源了全新的OCR模型——
DeepSeek-OCR 2,主打將PDF文檔精準轉換Markdown。
![]()
相較于去年10月20日發布的初代模型,DeepSeek-OCR 2的核心突破在于打破了傳統模型死板的“光柵掃描”邏輯,實現了根據圖像語義動態重排視覺標記(Visual Tokens)
為此,DeepSeek-OCR 2棄用了前作中的CLIP組件,轉而使用輕量化的語言模型(Qwen2-0.5B)構建DeepEncoder V2,在視覺編碼階段就引入了“因果推理”能力。
這一調整模擬了人類閱讀文檔時的因果視覺流,使LLM在進行內容解讀之前,智能地重排視覺標記。
性能上,DeepSeek-OCR 2在僅采用輕量模型的前提下,達到了媲美Gemini-3 Pro的效果。
在OmniDocBench v1.5基準上,DeepSeek-OCR 2提升了3.73%,并在視覺閱讀邏輯方面取得了顯著進展。
![]()
值得一提的是,這次最新論文的作者依然是:魏浩然,孫耀峰和李宇琨三人組。
![]()
接下來,我們一起來看。
核心更新:DeepEncoder V2
DeepSeek-OCR 2延續了前代OCR模型的經典架構,由編碼器和解碼器協同工作。
編碼器負責將圖像離散化為視覺標記(Visual Tokens),解碼器則結合這些標記與用戶指令生成最終文本輸出。
![]()
如論文所說,DeepSeek-OCR 2此次核心的升級在于編碼器——
DeepEncoder V2
傳統的視覺編碼器通常按照固定的“光柵掃描”(從左到右、從上到下)順序處理圖像,這在面對復雜版面(如雙欄文檔、錯落的表格)時,往往會切斷語義的邏輯連貫性。
![]()
而DeepEncoder V2這次的更新解決的正是這一問題。
將此前的CLIP組件替換為輕量化的LLM架構(Qwen2-0.5B),這一轉變賦予了編碼器因果推理能力
信息進入主解碼器之前,編碼器就先對視覺標記進行“智能重排”,使其更符合人類閱讀邏輯。
為了實現這種智能重排,DeepEncoder V2引入了一種全新的雙流注意力機制,其底層邏輯通過一個定制的注意力掩碼(Attention Mask)來約束:
![]()
- 視覺標記(Visual Tokens):對應掩碼左側的全1區域,采用雙向注意力,保留全局建模能力,確保每一個標記都能“看”到整幅圖。
- 因果流查詢(Causal Flow Queries):對應掩碼右邊的三角區域(LowerTri)。這是附加在視覺標記后的可學習查詢向量。它們采用因果注意力(即每個查詢只能關注之前的查詢及所有視覺標記)。
這種設計使得視覺標記之間互不干擾(保持原始特征),但每一個查詢標記卻被強制要求只能“看到”它之前的標記以及所有的視覺標記。
相比傳統的交叉注意力結構,這確保視覺信息在所有層中都保持“活躍”,從而與因果查詢進行深度信息交換。
此外,這實際上還建立了兩階段級聯推理,成功彌合了2D空間結構與1D語言建模之間的鴻溝:
- 第一階段(編碼器):通過查詢進行語義重排。
- 第二階段(解碼器):對有序序列進行自回歸推理。
換句話說,在V1中,圖像進入LLM時,順序是寫死的。
而在V2中,通過查詢標記(Learnable Query)的重排,模型在進入主解碼器之前,就已經在編碼器內部完成了一次“邏輯理順”
其他組件
介紹完DeepEncoder V2的核心升級后,我們來串一下DeepSeek-OCR 2的整體架構:
首先是一開頭的視覺分詞器(SAM),其沿用了此前的架構,采用了80M參數的SAM-base架構,并結合兩層卷積層。
輸出維度從前代的1024優化縮減至896,以對齊后續管線,這套分詞器的設置實現了16倍的標記壓縮
這種基于壓縮的設計,以極小的參數開銷,極大地釋放了后續全局注意力模塊的計算壓力,讓模型運行更輕快。
![]()
此外,為了在處理不同分辨率圖像時“不丟細節”,DeepSeek-OCR 2在編碼階段還引入了靈活的裁剪方案:
- 全局視圖(Global View): 在1024×1024分辨率下,生成256個查詢標記。
- 局部裁剪(Local Crops): 針對768×768的細部,每個裁剪塊對應144個查詢標記。
最終輸入LLM的標記總數穩定在256到1120之間,與Gemini-1.5 Pro的視覺預算相匹配。
最后,在后端解碼器部分,DeepSeek-OCR 2保留了3B參數的MoE結構(實際激活參數僅約 500M)。
訓練流程與實驗驗證
在數據策略上,DeepSeek-OCR 2延續了與前代相同的數據源,OCR相關數據占比達80%。
其關鍵優化點有二:一是采樣均衡化,將正文、公式與表格按3:1:1比例劃分;
二是標簽精簡化,合并了如“圖片說明”與“標題”等語義相似的布局標簽。這種極小的底層差異,確保了其與基準測試之間具備高度的一致性與可比性。
在訓練流程方面,DeepSeek-OCR 2采用了三階段的訓練Pipelines:
- 編碼器預訓練:通過下一標記預測(Next Token Prediction)任務,使編碼器掌握特征提取、壓縮和重排序能力。
- 查詢增強:凍結視覺分詞器,聯合優化LLM編碼器和解碼器,增強查詢表示。
- 解碼器微調:凍結編碼器,僅優化解碼器,從而在相同的算力(FLOPs)下實現更高的數據吞吐量。
在實驗階段,DeepSeek-OCR 2主要在OmniDocBench v1.5上進行評估,包含1355個頁面,涵蓋雜志、學術論文、研究報告等9大類文檔。
并與Gemini-3 Pro、Qwen2.5-VL、InternVL3.5等先進模型及多種專業OCR方案進行對比 。
如開頭所示,DeepSeek-OCR 2在OmniDocBench v1.5上達到了91.09%的性能,相比基線提升了3.73%
![]()
閱讀順序(R-order)的編輯距離從0.085顯著降至 0.057,證明了 DeepEncoder V2 重新編排視覺信息的能力。
在相似的標記預算(1120)下,DeepSeek-OCR 2的文檔解析編輯距離(0.100)優于 Gemini-3 Pro(0.115)。
![]()
在實際生產中,在線用戶日志的重復率從6.25%降至4.17%,PDF 生產數據重復率從 3.69% 降至 2.88%,證明了模型邏輯視覺理解能力的提升。
![]()
整體來看,DeepSeek-OCR 2在保持高壓縮率的同時實現了顯著的性能提升驗證了使用語言模型架構作為視覺編碼器的可行性,這為邁向統一的全模態編碼器(omni-modal encoder)提供了路徑。
One more thing
這篇論文的三位作者分別是:魏浩然,孫耀峰和李宇琨。
魏浩然曾就職于階躍星辰,當時主導開發了意在實現“第二代OCR”的GOT-OCR2.0系統。
![]()
孫耀峰本科就讀于北京大學,現于幻方AI從事大語言模型的相關研究,R1、V3中都有他的身影。
![]()
李宇琨,谷歌學術論文近萬引研究員,也持續參與了包括DeepSeek V2/V3在內的多款模型研發。
![]()
最后,OCR 2延續了DeepSeek團隊一貫的開源精神。
項目已在GitHub開源,并同步上線HuggingFace,論文也一并釋出。
GitHub:https://github.com/deepseek-ai/DeepSeek-OCR-2
HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
論文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.