現(xiàn)在大語(yǔ)言模型處理長(zhǎng)文本特頭疼:字一多,token數(shù)量就炸了,又費(fèi)錢(qián)又慢。
結(jié)果DeepSeek團(tuán)隊(duì)盯著這問(wèn)題琢磨,突然發(fā)現(xiàn)個(gè)事兒:一頁(yè)文字純文本輸進(jìn)去,得2000到5000個(gè)token,可要是渲染成圖片,用視覺(jué)模型處理,居然只要200到400個(gè)視覺(jué)token!
壓縮率直接飆到10倍,這差距也太離譜了。
結(jié)果還真讓他們搞出來(lái)了,就是這個(gè)DeepSeek-OCR。
![]()
說(shuō)穿了,這模型的核心想法特簡(jiǎn)單:用視覺(jué)感知幫長(zhǎng)文本瘦身。
就像DeepSeek在報(bào)告里說(shuō)的,靠這招能把不同階段的文本token減7到20倍,算是給長(zhǎng)文本處理開(kāi)了條新路子。
其實(shí)想想也合理,DeepSeek團(tuán)隊(duì)一直就愛(ài)琢磨用更少資源干大事,之前做的模型就想跟OpenAI、谷歌掰掰手腕,現(xiàn)在把這思路用到OCR上,倒也不意外。
再說(shuō)說(shuō)它是怎么干活的,其實(shí)就兩步:先把文字變成圖片,用個(gè)視覺(jué)編碼器(叫DeepEncoder)壓小,再用個(gè)文本解碼器(DeepSeek-3B-MoE)把字重建出來(lái)。
我特地扒了扒這個(gè)DeepEncoder,這才是真腦洞:把兩個(gè)知名視覺(jué)模型拼一塊兒了,SAM-base負(fù)責(zé)盯細(xì)節(jié),比如字的筆畫(huà)、排版。
CLIP-Large負(fù)責(zé)看整體,把握頁(yè)面結(jié)構(gòu)。
中間還加了個(gè)16倍的卷積壓縮模塊,就拿1024×1024的文檔圖來(lái)說(shuō),普通視覺(jué)模型得出4096個(gè)特征塊,它一壓縮,只出256個(gè)視覺(jué)token!
![]()
這下就不用怕特征量爆炸,后續(xù)處理又快又省內(nèi)存,這設(shè)計(jì)是真夠巧的。
解碼器那邊呢,是個(gè)小尺寸的專(zhuān)家混合模型,總共5.7億活躍參數(shù),里面藏著64個(gè)小專(zhuān)家,每次解碼只叫醒6個(gè)干活,從壓縮后的視覺(jué)特征里一點(diǎn)點(diǎn)把文字摳出來(lái)。
![]()
最牛的是,它訓(xùn)練時(shí)啥都學(xué)了,不光普通文檔,連表格、公式、化學(xué)分子結(jié)構(gòu)、幾何圖形都能認(rèn),還能處理多語(yǔ)言PDF。
![]()
![]()
要知道,這些結(jié)構(gòu)化信息,好多傳統(tǒng)OCR碰都不敢碰,它倒好,全給包圓了。
還有個(gè)細(xì)節(jié)特貼心:它能根據(jù)文字密度和版面復(fù)雜度調(diào)壓縮程度。
比如遇到特別大、特別復(fù)雜的頁(yè)面,就開(kāi)Gundam模式,跟InternVL2.0似的分塊處理。
簡(jiǎn)單頁(yè)面就少用點(diǎn)token省勁兒,復(fù)雜頁(yè)面就細(xì)分保證accuracy,算是把效率和準(zhǔn)確平衡得挺好。
說(shuō)真的,這思路就像給長(zhǎng)文本做有損壓縮,借視覺(jué)模態(tài)信息密度高、冗余少的特點(diǎn),少用token還能存住信息。
這模型終于開(kāi)源了,我第一時(shí)間就去GitHub瞅了眼,權(quán)重和代碼全放出來(lái)了,還用的MIT許可證,學(xué)術(shù)研究、商業(yè)應(yīng)用隨便用,對(duì)開(kāi)發(fā)者來(lái)說(shuō)簡(jiǎn)直是福利!
模型文件大概6.6GB,對(duì)應(yīng)30億參數(shù)規(guī)模,不過(guò)得用NVIDIAGPU跑,還得裝Python3.12+、PyTorch2.6.0這些。
官方給的教程特詳細(xì),連怎么用Transformers庫(kù)加載模型、調(diào)參數(shù)都寫(xiě)了,甚至還有PDF解析的示例腳本,連vLLM加速方案都給配了,社區(qū)還有人做了Docker鏡像和Web界面,只要有點(diǎn)深度學(xué)習(xí)基礎(chǔ),基本都能跑起來(lái)。
不過(guò)有個(gè)小門(mén)檻,得有16GB以上顯存的GPU。
再說(shuō)說(shuō)它的性能,我看測(cè)試數(shù)據(jù)的時(shí)候是真驚了!
在Fox基準(zhǔn)測(cè)試?yán)铮?4個(gè)視覺(jué)token處理每頁(yè)600-700個(gè)文本token的文檔,準(zhǔn)確率能到96.5%,壓縮率6.7倍,加到100個(gè)視覺(jué)token,準(zhǔn)確率直接飆到98.5%,壓縮率10.5倍!
就算是每頁(yè)1200-1300個(gè)token的密文,100個(gè)視覺(jué)token也能保59.1%的準(zhǔn)確率,壓縮快20倍!
![]()
速度也夠能打,單張A100GPU一天能處理20萬(wàn)頁(yè)文檔,20臺(tái)服務(wù)器(每臺(tái)8張A100)一天能搞3300萬(wàn)頁(yè),對(duì)付大規(guī)模文檔數(shù)字化完全沒(méi)問(wèn)題。
而且它參數(shù)才3億級(jí)別,部署在本地或邊緣設(shè)備都方便,延遲還低。
當(dāng)然也不是沒(méi)缺點(diǎn),壓縮到20倍以上,準(zhǔn)確率就掉得明顯,太復(fù)雜的版面或冷門(mén)字體也可能認(rèn)錯(cuò),但這些都是OCR領(lǐng)域的老難題了,DeepSeek-OCR能做到這份上,已經(jīng)很能打了。
說(shuō)實(shí)話,這模型能用到的地方太多了,處理長(zhǎng)篇PDF、書(shū)籍掃描件,幫法律、金融、科研行業(yè)省時(shí)間。
![]()
![]()
支持100多種語(yǔ)言,跨國(guó)公司處理多語(yǔ)言報(bào)表、圖書(shū)館掃多語(yǔ)種古籍都能用。
![]()
未來(lái)這方向也挺值得期待的。
比如把它跟對(duì)話AI搭一塊兒,用戶傳長(zhǎng)篇文檔,先用它壓成視覺(jué)特征,再給語(yǔ)言模型處理,就能突破輸入長(zhǎng)度限制。
DeepSeek用這思路做對(duì)話記憶,人記東西會(huì)慢慢模糊一樣,讓模型把舊對(duì)話存成低分辨率記憶圖,擴(kuò)內(nèi)存容量,這想法也太妙了。
![]()
而且它可能會(huì)改變OCR的技術(shù)路線,以前都是檢測(cè)+識(shí)別,現(xiàn)在端到端的多模態(tài)OCR開(kāi)始冒頭了。
以后的OCR說(shuō)不定不僅能識(shí)字,還能理解內(nèi)容,直接出結(jié)構(gòu)化結(jié)果,比如DeepSeek-OCR已經(jīng)能處理圖表出Markdown、認(rèn)化學(xué)式出SMILES編碼、看幾何圖形出坐標(biāo),以后只會(huì)更智能。
![]()
總的來(lái)說(shuō),DeepSeek-OCR不光是OCR領(lǐng)域的突破,更是AI多模態(tài)融合的一塊里程碑。
它證明把文字當(dāng)圖片壓縮這瘋狂想法真能行,也給長(zhǎng)文本處理找了條新路子。
就像DeepSeek在報(bào)告里說(shuō)的,這只是對(duì)視覺(jué)文本壓縮邊界的初步探索,現(xiàn)在已經(jīng)這么驚艷了,以后肯定還有更大的空間。
說(shuō)不定再過(guò)陣子,大語(yǔ)言模型的腦子里,不只是抽象的文字token,還會(huì)存著一堆壓縮的記憶圖片,幫它更好地處理海量信息。
DeepSeek這波操作,是真敢想,也真做成了。
這場(chǎng)關(guān)于文字變圖片的AI變革,才剛開(kāi)頭呢。
非常感謝您看本文章,如果感覺(jué)寫(xiě)的還可以的話,那就點(diǎn)個(gè)贊、轉(zhuǎn)發(fā)一下吧~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.