網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek-OCR 開(kāi)源！為AI裝上眼睛的深遠(yuǎn)影響

2025-10-23 20:24:23　來(lái)源: AI變革

黑龍江舉報(bào)

分享至

現(xiàn)在大語(yǔ)言模型處理長(zhǎng)文本特頭疼：字一多，token數(shù)量就炸了，又費(fèi)錢(qián)又慢。

結(jié)果DeepSeek團(tuán)隊(duì)盯著這問(wèn)題琢磨，突然發(fā)現(xiàn)個(gè)事兒：一頁(yè)文字純文本輸進(jìn)去，得2000到5000個(gè)token，可要是渲染成圖片，用視覺(jué)模型處理，居然只要200到400個(gè)視覺(jué)token！

壓縮率直接飆到10倍，這差距也太離譜了。

結(jié)果還真讓他們搞出來(lái)了，就是這個(gè)DeepSeek-OCR。

說(shuō)穿了，這模型的核心想法特簡(jiǎn)單：用視覺(jué)感知幫長(zhǎng)文本瘦身。

就像DeepSeek在報(bào)告里說(shuō)的，靠這招能把不同階段的文本token減7到20倍，算是給長(zhǎng)文本處理開(kāi)了條新路子。

其實(shí)想想也合理，DeepSeek團(tuán)隊(duì)一直就愛(ài)琢磨用更少資源干大事，之前做的模型就想跟OpenAI、谷歌掰掰手腕，現(xiàn)在把這思路用到OCR上，倒也不意外。

再說(shuō)說(shuō)它是怎么干活的，其實(shí)就兩步：先把文字變成圖片，用個(gè)視覺(jué)編碼器（叫DeepEncoder）壓小，再用個(gè)文本解碼器（DeepSeek-3B-MoE）把字重建出來(lái)。

我特地扒了扒這個(gè)DeepEncoder，這才是真腦洞：把兩個(gè)知名視覺(jué)模型拼一塊兒了，SAM-base負(fù)責(zé)盯細(xì)節(jié)，比如字的筆畫(huà)、排版。

CLIP-Large負(fù)責(zé)看整體，把握頁(yè)面結(jié)構(gòu)。

中間還加了個(gè)16倍的卷積壓縮模塊，就拿1024×1024的文檔圖來(lái)說(shuō)，普通視覺(jué)模型得出4096個(gè)特征塊，它一壓縮，只出256個(gè)視覺(jué)token！

這下就不用怕特征量爆炸，后續(xù)處理又快又省內(nèi)存，這設(shè)計(jì)是真夠巧的。

解碼器那邊呢，是個(gè)小尺寸的專(zhuān)家混合模型，總共5.7億活躍參數(shù)，里面藏著64個(gè)小專(zhuān)家，每次解碼只叫醒6個(gè)干活，從壓縮后的視覺(jué)特征里一點(diǎn)點(diǎn)把文字摳出來(lái)。

最牛的是，它訓(xùn)練時(shí)啥都學(xué)了，不光普通文檔，連表格、公式、化學(xué)分子結(jié)構(gòu)、幾何圖形都能認(rèn)，還能處理多語(yǔ)言PDF。

要知道，這些結(jié)構(gòu)化信息，好多傳統(tǒng)OCR碰都不敢碰，它倒好，全給包圓了。

還有個(gè)細(xì)節(jié)特貼心：它能根據(jù)文字密度和版面復(fù)雜度調(diào)壓縮程度。

比如遇到特別大、特別復(fù)雜的頁(yè)面，就開(kāi)Gundam模式，跟InternVL2.0似的分塊處理。

簡(jiǎn)單頁(yè)面就少用點(diǎn)token省勁兒，復(fù)雜頁(yè)面就細(xì)分保證accuracy，算是把效率和準(zhǔn)確平衡得挺好。

說(shuō)真的，這思路就像給長(zhǎng)文本做有損壓縮，借視覺(jué)模態(tài)信息密度高、冗余少的特點(diǎn)，少用token還能存住信息。

這模型終于開(kāi)源了，我第一時(shí)間就去GitHub瞅了眼，權(quán)重和代碼全放出來(lái)了，還用的MIT許可證，學(xué)術(shù)研究、商業(yè)應(yīng)用隨便用，對(duì)開(kāi)發(fā)者來(lái)說(shuō)簡(jiǎn)直是福利！

模型文件大概6.6GB，對(duì)應(yīng)30億參數(shù)規(guī)模，不過(guò)得用NVIDIAGPU跑，還得裝Python3.12+、PyTorch2.6.0這些。

官方給的教程特詳細(xì)，連怎么用Transformers庫(kù)加載模型、調(diào)參數(shù)都寫(xiě)了，甚至還有PDF解析的示例腳本，連vLLM加速方案都給配了，社區(qū)還有人做了Docker鏡像和Web界面，只要有點(diǎn)深度學(xué)習(xí)基礎(chǔ)，基本都能跑起來(lái)。

不過(guò)有個(gè)小門(mén)檻，得有16GB以上顯存的GPU。

再說(shuō)說(shuō)它的性能，我看測(cè)試數(shù)據(jù)的時(shí)候是真驚了！

在Fox基準(zhǔn)測(cè)試?yán)铮?4個(gè)視覺(jué)token處理每頁(yè)600-700個(gè)文本token的文檔，準(zhǔn)確率能到96.5%，壓縮率6.7倍，加到100個(gè)視覺(jué)token，準(zhǔn)確率直接飆到98.5%，壓縮率10.5倍！

就算是每頁(yè)1200-1300個(gè)token的密文，100個(gè)視覺(jué)token也能保59.1%的準(zhǔn)確率，壓縮快20倍！

速度也夠能打，單張A100GPU一天能處理20萬(wàn)頁(yè)文檔，20臺(tái)服務(wù)器（每臺(tái)8張A100）一天能搞3300萬(wàn)頁(yè)，對(duì)付大規(guī)模文檔數(shù)字化完全沒(méi)問(wèn)題。

而且它參數(shù)才3億級(jí)別，部署在本地或邊緣設(shè)備都方便，延遲還低。

當(dāng)然也不是沒(méi)缺點(diǎn)，壓縮到20倍以上，準(zhǔn)確率就掉得明顯，太復(fù)雜的版面或冷門(mén)字體也可能認(rèn)錯(cuò)，但這些都是OCR領(lǐng)域的老難題了，DeepSeek-OCR能做到這份上，已經(jīng)很能打了。

說(shuō)實(shí)話，這模型能用到的地方太多了，處理長(zhǎng)篇PDF、書(shū)籍掃描件，幫法律、金融、科研行業(yè)省時(shí)間。

支持100多種語(yǔ)言，跨國(guó)公司處理多語(yǔ)言報(bào)表、圖書(shū)館掃多語(yǔ)種古籍都能用。

未來(lái)這方向也挺值得期待的。

比如把它跟對(duì)話AI搭一塊兒，用戶傳長(zhǎng)篇文檔，先用它壓成視覺(jué)特征，再給語(yǔ)言模型處理，就能突破輸入長(zhǎng)度限制。

DeepSeek用這思路做對(duì)話記憶，人記東西會(huì)慢慢模糊一樣，讓模型把舊對(duì)話存成低分辨率記憶圖，擴(kuò)內(nèi)存容量，這想法也太妙了。

而且它可能會(huì)改變OCR的技術(shù)路線，以前都是檢測(cè)+識(shí)別，現(xiàn)在端到端的多模態(tài)OCR開(kāi)始冒頭了。

以后的OCR說(shuō)不定不僅能識(shí)字，還能理解內(nèi)容，直接出結(jié)構(gòu)化結(jié)果，比如DeepSeek-OCR已經(jīng)能處理圖表出Markdown、認(rèn)化學(xué)式出SMILES編碼、看幾何圖形出坐標(biāo)，以后只會(huì)更智能。

總的來(lái)說(shuō)，DeepSeek-OCR不光是OCR領(lǐng)域的突破，更是AI多模態(tài)融合的一塊里程碑。

它證明把文字當(dāng)圖片壓縮這瘋狂想法真能行，也給長(zhǎng)文本處理找了條新路子。

就像DeepSeek在報(bào)告里說(shuō)的，這只是對(duì)視覺(jué)文本壓縮邊界的初步探索，現(xiàn)在已經(jīng)這么驚艷了，以后肯定還有更大的空間。

說(shuō)不定再過(guò)陣子，大語(yǔ)言模型的腦子里，不只是抽象的文字token，還會(huì)存著一堆壓縮的記憶圖片，幫它更好地處理海量信息。

DeepSeek這波操作，是真敢想，也真做成了。

這場(chǎng)關(guān)于文字變圖片的AI變革，才剛開(kāi)頭呢。

非常感謝您看本文章，如果感覺(jué)寫(xiě)的還可以的話，那就點(diǎn)個(gè)贊、轉(zhuǎn)發(fā)一下吧~

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.