網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek又拿第一！首創(chuàng)「因果流」視覺(jué)推理，超越Gemini

2026-01-27 15:51:42　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：定慧好困

【新智元導(dǎo)讀】DeepSeek開(kāi)源DeepSeek-OCR2，引入了全新的DeepEncoder V2視覺(jué)編碼器。該架構(gòu)打破了傳統(tǒng)模型按固定順序（從左上到右下）掃描圖像的限制，轉(zhuǎn)而模仿人類(lèi)視覺(jué)的「因果流（Causal Flow）」邏輯。

DeepSeek又雙叒叕更新了！

這次是DeepSeek-OCR模型的重磅升級(jí)：DeepSeek-OCR2。

還記得上一代DeepSeek-OCR嗎？那個(gè)用視覺(jué)方式壓縮一切的模型。

這一次，DeepSeek更進(jìn)一步，對(duì)視覺(jué)編碼器下手了，提出了一種全新的DeepEncoder V2架構(gòu)，實(shí)現(xiàn)了視覺(jué)編碼從「固定掃描」向「語(yǔ)義推理」的范式轉(zhuǎn)變！

DeepSeek-OCR2不僅能像人類(lèi)一樣按邏輯順序閱讀復(fù)雜文檔，還在多項(xiàng)基準(zhǔn)測(cè)試中刷新了SOTA。

當(dāng)然，按照DeepSeek的慣例，Paper、Code、Model全開(kāi)源！

項(xiàng)目地址：

https://github.com/deepseek-ai/DeepSeek-OCR-2

模型下載：

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

論文地址：

https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

DeepSeek-OCR2的核心創(chuàng)新在于通過(guò)DeepEncoder V2，賦予了模型因果推理能力（Causal Reasoning）。

這就像是給機(jī)器裝上了「人類(lèi)的閱讀邏輯」，讓AI不再只是死板地從左上到右下掃描圖像，而是能根據(jù)內(nèi)容語(yǔ)義靈活調(diào)整閱讀順序。

DeepSeek-OCR2

視覺(jué)因果流

DeepSeek在論文中指出，傳統(tǒng)的視覺(jué)語(yǔ)言模型（VLM）通常采用光柵掃描（Raster-Scan）順序處理圖像，即固定地從左到右、從上到下。

這種方式強(qiáng)行將2D圖像拍扁成1D序列，忽略了圖像內(nèi)部的語(yǔ)義結(jié)構(gòu)。

這顯然與人類(lèi)的視覺(jué)習(xí)慣背道而馳。

人類(lèi)在看圖或閱讀文檔時(shí)，目光是隨著邏輯流動(dòng)的：先看標(biāo)題，再看正文，遇到表格會(huì)按列或按行掃視，遇到分欄會(huì)自動(dòng)跳躍。

為了解決這個(gè)問(wèn)題，DeepSeek-OCR2引入了DeepEncoder V2。

它最大的特點(diǎn)是用一個(gè)輕量級(jí)的大語(yǔ)言模型（Qwen2-0.5B）替換了原本的CLIP編碼器，并設(shè)計(jì)了一種獨(dú)特的「因果流查詢(xún)」（Causal Flow Query）機(jī)制。

DeepEncoder V2架構(gòu)詳解

DeepEncoder V2主要由兩部分組成：

1. 視覺(jué)分詞器（Vision Tokenizer）

沿用了SAM-base（80M參數(shù)）加卷積層的設(shè)計(jì)，將圖像轉(zhuǎn)換為視覺(jué)Token。

2. 作為視覺(jué)編碼器的LLM

這里DeepSeek使用了一個(gè)Qwen2-0.5B模型。

它不僅處理視覺(jué)Token，還引入了一組可學(xué)習(xí)的「查詢(xún)Token」（Query Tokens）。

關(guān)鍵的創(chuàng)新點(diǎn)在于注意力掩碼（Attention Mask）的設(shè)計(jì)：

視覺(jué)Token之間采用雙向注意力（Bidirectional Attention），保持全局感知能力，類(lèi)似于ViT。

而查詢(xún)Token則采用因果注意力（Causal Attention），每一個(gè)查詢(xún)Token只能看到它之前的Token。

通過(guò)這種設(shè)計(jì)，DeepEncoder V2實(shí)現(xiàn)了兩級(jí)級(jí)聯(lián)的因果推理：

編碼器通過(guò)可學(xué)習(xí)的查詢(xún)對(duì)視覺(jué)Token進(jìn)行語(yǔ)義重排，隨后的LLM解碼器則在這個(gè)有序序列上進(jìn)行自回歸推理。

這意味著，DeepSeek-OCR2在編碼階段就已經(jīng)把圖像里的信息「理順」了，而不是一股腦地扔給解碼器。

Token更少，精度更高

實(shí)驗(yàn)數(shù)據(jù)顯示，DeepSeek-OCR2在保持極高壓縮率的同時(shí)，性能顯著提升。

在OmniDocBench v1.5基準(zhǔn)測(cè)試中，DeepSeek-OCR2在使用最少視覺(jué)Token（僅256-1120個(gè)）的情況下，綜合得分高達(dá)91.09%，相比前代提升了3.73%。

特別值得一提的是，在閱讀順序（R-order）的編輯距離（Edit Distance）指標(biāo)上，DeepSeek-OCR2從前代的0.085顯著降低到了0.057。

這直接證明了新模型在處理復(fù)雜版面時(shí)，邏輯性更強(qiáng)，更懂「閱讀順序」。

在和Gemini-3 Pro等閉源強(qiáng)模型的對(duì)比中，DeepSeek-OCR2也絲毫不落下風(fēng)。

在均使用約1120個(gè)視覺(jué)Token的情況下，DeepSeek-OCR2的文檔解析編輯距離（0.100）優(yōu)于Gemini-3 Pro（0.115）。

不僅是刷榜，DeepSeek-OCR2在實(shí)際生產(chǎn)環(huán)境中也非常能打。

DeepSeek披露，在處理在線用戶(hù)日志圖像時(shí)，OCR結(jié)果的重復(fù)率從6.25%降到了4.17%；在PDF數(shù)據(jù)生產(chǎn)場(chǎng)景中，重復(fù)率從3.69%降到了2.88%。

這意味著模型生成的文本更加干凈、準(zhǔn)確，對(duì)于作為L(zhǎng)LM訓(xùn)練數(shù)據(jù)的清洗流水線來(lái)說(shuō)，價(jià)值巨大。

邁向真正的多模態(tài)統(tǒng)一

DeepSeek在論文最后提到，DeepSeek-OCR2通過(guò)DeepEncoder V2驗(yàn)證了「LLM作為視覺(jué)編碼器」的可行性。

這不僅是一個(gè)OCR模型的升級(jí)，更是邁向原生多模態(tài)（Native Multimodality）的重要一步。

未來(lái)，同一個(gè)編碼器只要配備不同的模態(tài)查詢(xún)嵌入（Query Embeddings），就能處理文本、圖片、音頻等多種模態(tài)的數(shù)據(jù)，真正實(shí)現(xiàn)萬(wàn)物皆可Token，萬(wàn)物皆可因果推理。

DeepSeek表示，雖然目前光學(xué)文本識(shí)別（OCR）是LLM時(shí)代最實(shí)用的視覺(jué)任務(wù)之一，但這只是視覺(jué)理解宏大圖景的一小部分。

DeepSeek將繼續(xù)探索，向著更通用的多模態(tài)智能進(jìn)發(fā)。

參考資料：

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.