![]()
新智元報(bào)道
編輯:定慧 好困
【新智元導(dǎo)讀】DeepSeek開(kāi)源DeepSeek-OCR2,引入了全新的DeepEncoder V2視覺(jué)編碼器。該架構(gòu)打破了傳統(tǒng)模型按固定順序(從左上到右下)掃描圖像的限制,轉(zhuǎn)而模仿人類(lèi)視覺(jué)的「因果流(Causal Flow)」邏輯。
DeepSeek又雙叒叕更新了!
這次是DeepSeek-OCR模型的重磅升級(jí):DeepSeek-OCR2。
![]()
還記得上一代DeepSeek-OCR嗎?那個(gè)用視覺(jué)方式壓縮一切的模型。
這一次,DeepSeek更進(jìn)一步,對(duì)視覺(jué)編碼器下手了,提出了一種全新的DeepEncoder V2架構(gòu),實(shí)現(xiàn)了視覺(jué)編碼從「固定掃描」向「語(yǔ)義推理」的范式轉(zhuǎn)變!
![]()
DeepSeek-OCR2不僅能像人類(lèi)一樣按邏輯順序閱讀復(fù)雜文檔,還在多項(xiàng)基準(zhǔn)測(cè)試中刷新了SOTA。
當(dāng)然,按照DeepSeek的慣例,Paper、Code、Model全開(kāi)源!
![]()
項(xiàng)目地址:
https://github.com/deepseek-ai/DeepSeek-OCR-2
模型下載:
https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
論文地址:
https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
DeepSeek-OCR2的核心創(chuàng)新在于通過(guò)DeepEncoder V2,賦予了模型因果推理能力(Causal Reasoning)。
這就像是給機(jī)器裝上了「人類(lèi)的閱讀邏輯」,讓AI不再只是死板地從左上到右下掃描圖像,而是能根據(jù)內(nèi)容語(yǔ)義靈活調(diào)整閱讀順序。
DeepSeek-OCR2
視覺(jué)因果流
DeepSeek在論文中指出,傳統(tǒng)的視覺(jué)語(yǔ)言模型(VLM)通常采用光柵掃描(Raster-Scan)順序處理圖像,即固定地從左到右、從上到下。
這種方式強(qiáng)行將2D圖像拍扁成1D序列,忽略了圖像內(nèi)部的語(yǔ)義結(jié)構(gòu)。
![]()
這顯然與人類(lèi)的視覺(jué)習(xí)慣背道而馳。
人類(lèi)在看圖或閱讀文檔時(shí),目光是隨著邏輯流動(dòng)的:先看標(biāo)題,再看正文,遇到表格會(huì)按列或按行掃視,遇到分欄會(huì)自動(dòng)跳躍。
為了解決這個(gè)問(wèn)題,DeepSeek-OCR2引入了DeepEncoder V2。
它最大的特點(diǎn)是用一個(gè)輕量級(jí)的大語(yǔ)言模型(Qwen2-0.5B)替換了原本的CLIP編碼器,并設(shè)計(jì)了一種獨(dú)特的「因果流查詢(xún)」(Causal Flow Query)機(jī)制。
DeepEncoder V2架構(gòu)詳解
DeepEncoder V2主要由兩部分組成:
1. 視覺(jué)分詞器(Vision Tokenizer)
沿用了SAM-base(80M參數(shù))加卷積層的設(shè)計(jì),將圖像轉(zhuǎn)換為視覺(jué)Token。
![]()
2. 作為視覺(jué)編碼器的LLM
這里DeepSeek使用了一個(gè)Qwen2-0.5B模型。
它不僅處理視覺(jué)Token,還引入了一組可學(xué)習(xí)的「查詢(xún)Token」(Query Tokens)。
![]()
關(guān)鍵的創(chuàng)新點(diǎn)在于注意力掩碼(Attention Mask)的設(shè)計(jì):
![]()
視覺(jué)Token之間采用雙向注意力(Bidirectional Attention),保持全局感知能力,類(lèi)似于ViT。
而查詢(xún)Token則采用因果注意力(Causal Attention),每一個(gè)查詢(xún)Token只能看到它之前的Token。
通過(guò)這種設(shè)計(jì),DeepEncoder V2實(shí)現(xiàn)了兩級(jí)級(jí)聯(lián)的因果推理:
編碼器通過(guò)可學(xué)習(xí)的查詢(xún)對(duì)視覺(jué)Token進(jìn)行語(yǔ)義重排,隨后的LLM解碼器則在這個(gè)有序序列上進(jìn)行自回歸推理。
這意味著,DeepSeek-OCR2在編碼階段就已經(jīng)把圖像里的信息「理順」了,而不是一股腦地扔給解碼器。
Token更少,精度更高
實(shí)驗(yàn)數(shù)據(jù)顯示,DeepSeek-OCR2在保持極高壓縮率的同時(shí),性能顯著提升。
在OmniDocBench v1.5基準(zhǔn)測(cè)試中,DeepSeek-OCR2在使用最少視覺(jué)Token(僅256-1120個(gè))的情況下,綜合得分高達(dá)91.09%,相比前代提升了3.73%。
![]()
特別值得一提的是,在閱讀順序(R-order)的編輯距離(Edit Distance)指標(biāo)上,DeepSeek-OCR2從前代的0.085顯著降低到了0.057。
這直接證明了新模型在處理復(fù)雜版面時(shí),邏輯性更強(qiáng),更懂「閱讀順序」。
在和Gemini-3 Pro等閉源強(qiáng)模型的對(duì)比中,DeepSeek-OCR2也絲毫不落下風(fēng)。
在均使用約1120個(gè)視覺(jué)Token的情況下,DeepSeek-OCR2的文檔解析編輯距離(0.100)優(yōu)于Gemini-3 Pro(0.115)。
![]()
![]()
不僅是刷榜,DeepSeek-OCR2在實(shí)際生產(chǎn)環(huán)境中也非常能打。
DeepSeek披露,在處理在線用戶(hù)日志圖像時(shí),OCR結(jié)果的重復(fù)率從6.25%降到了4.17%;在PDF數(shù)據(jù)生產(chǎn)場(chǎng)景中,重復(fù)率從3.69%降到了2.88%。
![]()
這意味著模型生成的文本更加干凈、準(zhǔn)確,對(duì)于作為L(zhǎng)LM訓(xùn)練數(shù)據(jù)的清洗流水線來(lái)說(shuō),價(jià)值巨大。
邁向真正的多模態(tài)統(tǒng)一
DeepSeek在論文最后提到,DeepSeek-OCR2通過(guò)DeepEncoder V2驗(yàn)證了「LLM作為視覺(jué)編碼器」的可行性。
這不僅是一個(gè)OCR模型的升級(jí),更是邁向原生多模態(tài)(Native Multimodality)的重要一步。
未來(lái),同一個(gè)編碼器只要配備不同的模態(tài)查詢(xún)嵌入(Query Embeddings),就能處理文本、圖片、音頻等多種模態(tài)的數(shù)據(jù),真正實(shí)現(xiàn)萬(wàn)物皆可Token,萬(wàn)物皆可因果推理。
DeepSeek表示,雖然目前光學(xué)文本識(shí)別(OCR)是LLM時(shí)代最實(shí)用的視覺(jué)任務(wù)之一,但這只是視覺(jué)理解宏大圖景的一小部分。
DeepSeek將繼續(xù)探索,向著更通用的多模態(tài)智能進(jìn)發(fā)。
參考資料:
https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.