![]()
來自DeepSeek的最新研究:DeepSeek-OCR,一種探索通過光學2D映射來壓縮長上下文的新方法
LLM處理長文本的計算成本,又有了新的破解思路。把長長的上下文,直接渲染成一張圖片,再喂給模型,這樣做的好處是,原本數千上萬個文本token,現在可能只需要幾百個視覺token就能表示,實現了信息的高效壓縮
實驗結果相當驚人:
在壓縮率小于10倍時(即文本token數是視覺token數的10倍以內),模型OCR解碼準確率高達97%
即使在20倍的超高壓縮率下,準確率依然能保持在60% 左右
在主流的文檔解析基準測試 OmniDocBench 上,DeepSeek-OCR 用更少的視覺token,實現了超越SOTA模型的性能
更重要的是,這項技術不僅是科研探索,還具備極高的實用價值。在生產環境中,單臺A100-40G GPU每天就能處理超過20萬頁的文檔,為大模型訓練提供海量數據
目前,相關的代碼和模型權重均已開源
https://github.com/deepseek-ai/DeepSeek-OCR/
https://huggingface.co/deepseek-ai/DeepSeek-OCR
什么是“上下文光學壓縮”?
LLM在處理長文本時,面臨的核心挑戰是其固有的二次方計算復雜度。隨著序列長度的增加,計算資源和時間會急劇增長。
DeepSeek研究人員提出了一個反直覺卻又合乎邏輯的想法:利用視覺模態作為文本信息的壓縮媒介
相比于一長串的數字文本token,一張包含同樣內容的文檔圖像,可以用遠少于前者的視覺token來表示。這就好比將一本書的內容拍成一張照片,這張照片本身就包含了所有的文字和排版信息
這種“文本→圖像→視覺token”的轉換過程,就是所謂的上下文光學壓縮(Contexts Optical Compression)
為了驗證這一想法,團隊構建了DeepSeek-OCR模型。從圖(a)的壓縮實驗中可以看出,視覺token數量和OCR解碼精度之間的權衡關系:
![]()
64個視覺token(左側柱狀圖):當文本token數在600-700之間(壓縮率約10.5倍)時,精度為96.5%。隨著文本量增加到1200-1300(壓縮率接近20倍),精度下降到59.1%
100個視覺token(右側柱狀圖):在600-700文本token(壓縮率6.7倍)時,精度高達98.5%。即使文本量增加,壓縮率達到12.6倍時,精度仍有87.1%
這意味著,在10倍壓縮的范圍內,模型幾乎可以“無損”地從圖像中解碼出原文
DeepSeek-OCR是如何實現的?
DeepSeek-OCR的架構由兩部分組成:一個核心的編碼器DeepEncoder,和一個解碼器DeepSeek3B-MoE-A570M
![]()
解碼器采用了高效的MoE(Mixture-of-Experts)架構,而整個系統的創新關鍵在于DeepEncoder
為了在處理高分辨率圖像時,依然能保持較低的計算激活和可控的視覺token數量,DeepEncoder的架構設計非常巧妙,它串聯了三個關鍵組件:
1.SAM-base (ViTDet):利用窗口注意力(window attention)機制處理局部感知,將輸入圖像(如1024x1024)分割成大量patch(如4096個)。由于是窗口注意力且模型規模不大(80M),激活值是可控的
2.16倍卷積壓縮器:在特征進入全局注意力模塊前,通過一個2層卷積網絡進行16倍的下采樣,將視覺token數量從4096個銳減到256個
3.CLIP-large (ViT):利用密集的全局注意力(dense global attention)機制提取視覺知識。由于輸入的token數量已經大幅減少,這里的計算開銷也變得可以接受
這種“先局部處理,再壓縮,后全局理解”的串行設計,使得DeepEncoder能夠在處理高清圖像的同時,生成數量極少的視覺token,實現了內存和token的雙重壓縮
效果炸裂,token用得還少
在權威的文檔理解基準 OmniDocBench 上,DeepSeek-OCR展現了其卓越的實用性能。
![]()
從上圖的性能對比中可以看出,DeepSeek-OCR(紅色圓點)在“平均每張圖的視覺token數”(橫軸)上處于最左側區域,意味著它使用的token數量最少。而在“整體性能(編輯距離)”(縱軸,越低越好)上,它卻達到了SOTA水平
具體來看:
僅用100個視覺token(Small模式),就超越了使用256個token的 GOT-OCR2.0
使用不到800個視覺token(Gundam模式),性能就超過了需要 6000+ token的 MinerU2.0
這充分證明,DeepSeek-OCR在實際應用中非常強大,并且由于其極高的token壓縮率,為未來的研究留下了更高的想象空間
不止于OCR的“深度解析”
除了常規的OCR能力,DeepSeek-OCR還具備對文檔內圖像進行深度解析的能力
無論是金融研報里的圖表:
![]()
還是化學文獻里的分子式:
![]()
甚至是數學題中的幾何圖形,它都能進行結構化的解析和轉換
![]()
此外,得益于其多語言的訓練數據,模型還能處理包括阿拉伯語、僧伽羅語在內的近百種語言的文檔
未來構想:模擬人類記憶遺忘
這項研究最引人遐想的部分,是它為實現LLM的記憶遺忘機制提供了一種可能的路徑
研究人員將上下文光學壓縮與人類記憶的衰退過程進行了類比:
![]()
近期記憶 (Recent Contexts):就像近處的物體,清晰可見。可以將其渲染成高分辨率圖像,用較多的視覺token來保留高保真信息
遠期記憶 (Older Contexts):就像遠處的物體,逐漸模糊。可以將其漸進式地縮放成更小、更模糊的圖像,用更少的視覺token來表示,從而實現信息的自然遺忘和壓縮
通過這種方式,模型可以在處理超長對話或文檔時,動態地為不同時期的上下文分配不同數量的計算資源,從而可能構建出一種理論上無限長上下文的架構。
總而言之,DeepSeek-OCR不僅驗證了“上下文光學壓縮”這一新穎想法的可行性,還提供了一個性能強大、極具實用價值的開源模型,為解決LLM的長上下文難題開辟了一個全新的、充滿希望的方向。
論文地址:
http://github.com/deepseek-ai/DeepSeek-OCR
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.