![]()
![]()
出品|搜狐科技
作者|常博碩
編輯| 楊 錦
臨近春節(jié),DeepSeek的更新也越來越頻繁了。
剛剛,DeepSeek團(tuán)隊發(fā)布了論文《DeepSeek-OCR 2:Visual Causal Flow》,并正式開源了DeepSeek-OCR 2模型。論文三位作者分別是魏浩然、孫耀峰和李宇琨。
![]()
要讀懂這篇文章,首先要知道的一個問題就是:啥是OCR?
其實,OCR是光學(xué)字符識別(Optical Character Recognition)的縮寫,基本思路就是讓計算機(jī)能看懂圖像中的文字。比如我們把手機(jī)拍攝的發(fā)票、合同掃描件、書籍照片等轉(zhuǎn)換成計算機(jī)可以編輯和搜索的文字內(nèi)容,這就是OCR。
傳統(tǒng)OCR模型通常遵循掃描式的思路,首先檢測圖像中的文字區(qū)域,再一個字一個字或一行一行地識別,這種固定掃描順序就容易忽略文檔的整體結(jié)構(gòu)。但人不是這樣的,我們在閱讀復(fù)雜文檔時,通常會先瀏覽標(biāo)題然后看看段落表格,會有優(yōu)先級排序,而不是機(jī)械地從左上到右下掃過頁面。
現(xiàn)在的問題是,當(dāng)文檔結(jié)構(gòu)復(fù)雜到一定程度時,AI就不知道先看哪兒了。像學(xué)術(shù)論文一般是多欄排版,文章中還有公式與正文交錯出現(xiàn),技術(shù)報告中的表格與注釋,報紙版面等等這些都對模型提出了超出傳統(tǒng)OCR的要求。
所以,DeepSeek新開源的DeepSeek-OCR 2模型其實就是為了讓機(jī)器閱讀更像人而設(shè)計的。
![]()
提出視覺因果流
DeepSeek-OCR 2作為新一代視覺語言O(shè)CR模型,核心創(chuàng)新在于提出了視覺因果流(Visual Causal Flow)的編碼器架構(gòu)。
DeepSeek-OCR 2的整體架構(gòu)延續(xù)了DeepSeek-OCR的“編碼器—解碼器”設(shè)計,其中解碼器仍然采用約3B參數(shù)的MoE語言模型,編碼器部分則升級為DeepEncoder V2。
從論文中看,DeepEncoder V2編碼器通過引入語義驅(qū)動的順序重排,使AI能夠根據(jù)圖片內(nèi)容的邏輯順序來處理信息,而不再只是按照固定的柵格順序。
![]()
上圖示意了DeepSeek-OCR 2的核心架構(gòu)。左邊為傳統(tǒng)DeepEncoder,使用CLIP視覺模型,右圖為DeepEncoder V2。新的架構(gòu)使用了語言模型作為視覺編碼器(LM as Vision Encoder),并在視覺Token序列后附加了因果查詢(learnable query),用于新的閱讀順序排列。
一個關(guān)鍵的點在于,DeepSeek-OCR 2使用了語言模型架構(gòu)作為視覺編碼器。
在DeepEncoder V2中,DeepSeek用一個輕量級語言模型(Qwen2-500M)取代了傳統(tǒng)的CLIP ViT。這樣做就可以讓模型在視覺編碼階段本身就具備序列建模和因果推理能力,使得其與后續(xù)的語言解碼階段在建模范式上保持一致。
從架構(gòu)上看,DeepSeek-OCR 2并未增加視覺token的數(shù)量,也沒有引入額外的多模態(tài)復(fù)雜結(jié)構(gòu),而是通過注意力掩碼的重新設(shè)計,讓“順序”成為可學(xué)習(xí)的對象。這使得模型在處理表格、公式、多欄排版等場景時,能夠更自然地恢復(fù)文檔的邏輯結(jié)構(gòu)。
注意力掩碼的設(shè)計其實十分有意思。在編碼器中,視覺token與一組新增的因果流查詢token被拼接成一個統(tǒng)一序列,但兩者在注意力機(jī)制上其實是非對稱的。
視覺token之間采用雙向注意力,保持與ViT類似的全局建模能力。而查詢token之間采用嚴(yán)格的因果注意力,每個query(查詢)只能關(guān)注其之前的query,同時,每個查詢token都可以訪問所有視覺token。
![]()
在這種注意力掩碼的作用下,查詢token被迫以序列化方式逐步聚合視覺信息,其內(nèi)部順序不再由空間坐標(biāo)決定,而是在訓(xùn)練過程中,在語義建模目標(biāo)的驅(qū)動下逐步形成更接近人類閱讀邏輯的視覺表示序列。
這種設(shè)計就和人類閱讀文檔的方式高度相似,首先獲取全局結(jié)構(gòu),隨后在語義理解的引導(dǎo)下,決定接下來該看哪里。
![]()
部分表現(xiàn)優(yōu)于Gemini
在OmniDocBench v1.5基準(zhǔn)測試中,DeepSeek-OCR 2在整體準(zhǔn)確率上達(dá)到91.09%,在使用最少視覺token的情況下,較上一代DeepSeek-OCR提升了3.73%。
在衡量閱讀順序(R-order)的指標(biāo)編輯距離(Edit Distance)上,DeepSeek-OCR 2從前代的0.085降低到了0.057,證明了新模型不僅識別得更準(zhǔn),結(jié)構(gòu)理解能力也發(fā)生了實質(zhì)變化。
在和Gemini-3 Pro等閉源強(qiáng)模型的對比中,在均使用約1120個視覺Token的情況下,DeepSeek-OCR2的文檔解析編輯距離(0.100)也優(yōu)于Gemini-3 Pro(0.115)。
根據(jù)DeepSeek披露的數(shù)據(jù),在真實用戶日志與PDF批量處理場景中,DeepSeek-OCR 2的重復(fù)輸出率也有了明顯下降。
相比前代模型,DeepSeek-OCR 2在在線用戶日志圖像中,重復(fù)率從6.25%降至4.17%。在PDF數(shù)據(jù)生產(chǎn)場景中,重復(fù)率從3.69%降至2.88%。重復(fù)輸出往往源于模型對文檔結(jié)構(gòu)理解不充分,導(dǎo)致內(nèi)容會被多次誤讀,從結(jié)果來看,視覺因果流的引入也有效緩解了這一問題。
如果放在更宏觀一點的角度,其實DeepSeek-OCR 2還提供了一種新的框架思路,那就是二維視覺理解,是否可以拆解為兩層一維因果推理。在這一框架下,編碼器負(fù)責(zé)怎么讀內(nèi)容,解碼器負(fù)責(zé)如何回答,兩者共同完成對復(fù)雜視覺內(nèi)容的理解。
這也是DeepSeek在論文最后提出的一個長期方向——原生多模態(tài)(Native Multimodality)。如果同一套因果查詢機(jī)制可以用于視覺、文本甚至音頻,那么OCR可能只是這一架構(gòu)的起點,而不是終點。
正如論文最后所說,雖然光學(xué)文本識別,特別是文檔解析,是大語言模型時代最實用的視覺任務(wù)之一,但它僅占視覺理解領(lǐng)域的一小部分。
展望未來,DeepSeek將向著更通用的多模態(tài)智能繼續(xù)“深度求索”。
![]()
![]()
運營編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.