![]()
來源:新智元
編輯:定慧 好困
【導讀】DeepSeek開源DeepSeek-OCR2,引入了全新的DeepEncoder V2視覺編碼器。該架構打破了傳統(tǒng)模型按固定順序(從左上到右下)掃描圖像的限制,轉而模仿人類視覺的「因果流(Causal Flow)」邏輯。
DeepSeek又雙叒叕更新了!
這次是DeepSeek-OCR模型的重磅升級:DeepSeek-OCR2。
![]()
還記得上一代DeepSeek-OCR嗎?那個用視覺方式壓縮一切的模型。
這一次,DeepSeek更進一步,對視覺編碼器下手了,提出了一種全新的DeepEncoder V2架構,實現了視覺編碼從「固定掃描」向「語義推理」的范式轉變!
![]()
DeepSeek-OCR2不僅能像人類一樣按邏輯順序閱讀復雜文檔,還在多項基準測試中刷新了SOTA。
當然,按照DeepSeek的慣例,Paper、Code、Model全開源!
![]()
項目地址:
https://github.com/deepseek-ai/DeepSeek-OCR-2
模型下載:
https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
論文地址:
https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
DeepSeek-OCR2的核心創(chuàng)新在于通過DeepEncoder V2,賦予了模型因果推理能力(Causal Reasoning)。
這就像是給機器裝上了「人類的閱讀邏輯」,讓AI不再只是死板地從左上到右下掃描圖像,而是能根據內容語義靈活調整閱讀順序。
DeepSeek-OCR2
視覺因果流
DeepSeek在論文中指出,傳統(tǒng)的視覺語言模型(VLM)通常采用光柵掃描(Raster-Scan)順序處理圖像,即固定地從左到右、從上到下。
這種方式強行將2D圖像拍扁成1D序列,忽略了圖像內部的語義結構。
![]()
這顯然與人類的視覺習慣背道而馳。
人類在看圖或閱讀文檔時,目光是隨著邏輯流動的:先看標題,再看正文,遇到表格會按列或按行掃視,遇到分欄會自動跳躍。
為了解決這個問題,DeepSeek-OCR2引入了DeepEncoder V2。
它最大的特點是用一個輕量級的大語言模型(Qwen2-0.5B)替換了原本的CLIP編碼器,并設計了一種獨特的「因果流查詢」(Causal Flow Query)機制。
DeepEncoder V2架構詳解
DeepEncoder V2主要由兩部分組成:
1. 視覺分詞器(Vision Tokenizer)
沿用了SAM-base(80M參數)加卷積層的設計,將圖像轉換為視覺Token。
![]()
2. 作為視覺編碼器的LLM
這里DeepSeek使用了一個Qwen2-0.5B模型。
它不僅處理視覺Token,還引入了一組可學習的「查詢Token」(Query Tokens)。
![]()
關鍵的創(chuàng)新點在于注意力掩碼(Attention Mask)的設計:
![]()
視覺Token之間采用雙向注意力(Bidirectional Attention),保持全局感知能力,類似于ViT。
而查詢Token則采用因果注意力(Causal Attention),每一個查詢Token只能看到它之前的Token。
通過這種設計,DeepEncoder V2實現了兩級級聯的因果推理:
編碼器通過可學習的查詢對視覺Token進行語義重排,隨后的LLM解碼器則在這個有序序列上進行自回歸推理。
這意味著,DeepSeek-OCR2在編碼階段就已經把圖像里的信息「理順」了,而不是一股腦地扔給解碼器。
Token更少,精度更高
實驗數據顯示,DeepSeek-OCR2在保持極高壓縮率的同時,性能顯著提升。
在OmniDocBench v1.5基準測試中,DeepSeek-OCR2在使用最少視覺Token(僅256-1120個)的情況下,綜合得分高達91.09%,相比前代提升了3.73%。
![]()
特別值得一提的是,在閱讀順序(R-order)的編輯距離(Edit Distance)指標上,DeepSeek-OCR2從前代的0.085顯著降低到了0.057。
這直接證明了新模型在處理復雜版面時,邏輯性更強,更懂「閱讀順序」。
在和Gemini-3 Pro等閉源強模型的對比中,DeepSeek-OCR2也絲毫不落下風。
在均使用約1120個視覺Token的情況下,DeepSeek-OCR2的文檔解析編輯距離(0.100)優(yōu)于Gemini-3 Pro(0.115)。
![]()
![]()
不僅是刷榜,DeepSeek-OCR2在實際生產環(huán)境中也非常能打。
DeepSeek披露,在處理在線用戶日志圖像時,OCR結果的重復率從6.25%降到了4.17%;在PDF數據生產場景中,重復率從3.69%降到了2.88%。
![]()
這意味著模型生成的文本更加干凈、準確,對于作為LLM訓練數據的清洗流水線來說,價值巨大。
邁向真正的多模態(tài)統(tǒng)一
DeepSeek在論文最后提到,DeepSeek-OCR2通過DeepEncoder V2驗證了「LLM作為視覺編碼器」的可行性。
這不僅是一個OCR模型的升級,更是邁向原生多模態(tài)(Native Multimodality)的重要一步。
未來,同一個編碼器只要配備不同的模態(tài)查詢嵌入(Query Embeddings),就能處理文本、圖片、音頻等多種模態(tài)的數據,真正實現萬物皆可Token,萬物皆可因果推理。
DeepSeek表示,雖然目前光學文本識別(OCR)是LLM時代最實用的視覺任務之一,但這只是視覺理解宏大圖景的一小部分。
DeepSeek將繼續(xù)探索,向著更通用的多模態(tài)智能進發(fā)。
參考資料:
https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.