網易首頁 > 網易號 > 正文申請入駐

DeepSeek王炸：10倍壓縮率，97%解碼精度！上下文光學壓縮登場

2025-10-20 16:22:55　來源: AI寒武紀

江蘇舉報

分享至

來自DeepSeek的最新研究：DeepSeek-OCR，一種探索通過光學2D映射來壓縮長上下文的新方法

LLM處理長文本的計算成本，又有了新的破解思路。把長長的上下文，直接渲染成一張圖片，再喂給模型，這樣做的好處是，原本數千上萬個文本token，現在可能只需要幾百個視覺token就能表示，實現了信息的高效壓縮

實驗結果相當驚人：

在壓縮率小于10倍時（即文本token數是視覺token數的10倍以內），模型OCR解碼準確率高達97%

即使在20倍的超高壓縮率下，準確率依然能保持在60% 左右

在主流的文檔解析基準測試 OmniDocBench 上，DeepSeek-OCR 用更少的視覺token，實現了超越SOTA模型的性能

更重要的是，這項技術不僅是科研探索，還具備極高的實用價值。在生產環境中，單臺A100-40G GPU每天就能處理超過20萬頁的文檔，為大模型訓練提供海量數據

目前，相關的代碼和模型權重均已開源

https://github.com/deepseek-ai/DeepSeek-OCR/

https://huggingface.co/deepseek-ai/DeepSeek-OCR

什么是“上下文光學壓縮”？

LLM在處理長文本時，面臨的核心挑戰是其固有的二次方計算復雜度。隨著序列長度的增加，計算資源和時間會急劇增長。

DeepSeek研究人員提出了一個反直覺卻又合乎邏輯的想法：利用視覺模態作為文本信息的壓縮媒介

相比于一長串的數字文本token，一張包含同樣內容的文檔圖像，可以用遠少于前者的視覺token來表示。這就好比將一本書的內容拍成一張照片，這張照片本身就包含了所有的文字和排版信息

這種“文本→圖像→視覺token”的轉換過程，就是所謂的上下文光學壓縮（Contexts Optical Compression）

為了驗證這一想法，團隊構建了DeepSeek-OCR模型。從圖（a）的壓縮實驗中可以看出，視覺token數量和OCR解碼精度之間的權衡關系：

64個視覺token（左側柱狀圖）：當文本token數在600-700之間（壓縮率約10.5倍）時，精度為96.5%。隨著文本量增加到1200-1300（壓縮率接近20倍），精度下降到59.1%

100個視覺token（右側柱狀圖）：在600-700文本token（壓縮率6.7倍）時，精度高達98.5%。即使文本量增加，壓縮率達到12.6倍時，精度仍有87.1%

這意味著，在10倍壓縮的范圍內，模型幾乎可以“無損”地從圖像中解碼出原文

DeepSeek-OCR是如何實現的？

DeepSeek-OCR的架構由兩部分組成：一個核心的編碼器DeepEncoder，和一個解碼器DeepSeek3B-MoE-A570M

解碼器采用了高效的MoE（Mixture-of-Experts）架構，而整個系統的創新關鍵在于DeepEncoder

為了在處理高分辨率圖像時，依然能保持較低的計算激活和可控的視覺token數量，DeepEncoder的架構設計非常巧妙，它串聯了三個關鍵組件：

1.SAM-base (ViTDet)：利用窗口注意力（window attention）機制處理局部感知，將輸入圖像（如1024x1024）分割成大量patch（如4096個）。由于是窗口注意力且模型規模不大（80M），激活值是可控的

2.16倍卷積壓縮器：在特征進入全局注意力模塊前，通過一個2層卷積網絡進行16倍的下采樣，將視覺token數量從4096個銳減到256個

3.CLIP-large (ViT)：利用密集的全局注意力（dense global attention）機制提取視覺知識。由于輸入的token數量已經大幅減少，這里的計算開銷也變得可以接受

這種“先局部處理，再壓縮，后全局理解”的串行設計，使得DeepEncoder能夠在處理高清圖像的同時，生成數量極少的視覺token，實現了內存和token的雙重壓縮

效果炸裂，token用得還少

在權威的文檔理解基準 OmniDocBench 上，DeepSeek-OCR展現了其卓越的實用性能。

從上圖的性能對比中可以看出，DeepSeek-OCR（紅色圓點）在“平均每張圖的視覺token數”（橫軸）上處于最左側區域，意味著它使用的token數量最少。而在“整體性能（編輯距離）”（縱軸，越低越好）上，它卻達到了SOTA水平

具體來看：

僅用100個視覺token（Small模式），就超越了使用256個token的 GOT-OCR2.0

使用不到800個視覺token（Gundam模式），性能就超過了需要 6000+ token的 MinerU2.0

這充分證明，DeepSeek-OCR在實際應用中非常強大，并且由于其極高的token壓縮率，為未來的研究留下了更高的想象空間

不止于OCR的“深度解析”

除了常規的OCR能力，DeepSeek-OCR還具備對文檔內圖像進行深度解析的能力

無論是金融研報里的圖表：

還是化學文獻里的分子式：

甚至是數學題中的幾何圖形，它都能進行結構化的解析和轉換

此外，得益于其多語言的訓練數據，模型還能處理包括阿拉伯語、僧伽羅語在內的近百種語言的文檔

未來構想：模擬人類記憶遺忘

這項研究最引人遐想的部分，是它為實現LLM的記憶遺忘機制提供了一種可能的路徑

研究人員將上下文光學壓縮與人類記憶的衰退過程進行了類比：

近期記憶 (Recent Contexts)：就像近處的物體，清晰可見。可以將其渲染成高分辨率圖像，用較多的視覺token來保留高保真信息

遠期記憶 (Older Contexts)：就像遠處的物體，逐漸模糊。可以將其漸進式地縮放成更小、更模糊的圖像，用更少的視覺token來表示，從而實現信息的自然遺忘和壓縮

通過這種方式，模型可以在處理超長對話或文檔時，動態地為不同時期的上下文分配不同數量的計算資源，從而可能構建出一種理論上無限長上下文的架構。

總而言之，DeepSeek-OCR不僅驗證了“上下文光學壓縮”這一新穎想法的可行性，還提供了一個性能強大、極具實用價值的開源模型，為解決LLM的長上下文難題開辟了一個全新的、充滿希望的方向。

論文地址：

http://github.com/deepseek-ai/DeepSeek-OCR

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

M+框架來了，增加LLM隱空間記憶，不再受上下文窗口限制

機器之心Pro 2025-07-15 17:07:00
0 跟貼 0
Being-VL的視覺BPE路線：把「看」和「說」真正統一起來

機器之心Pro 2025-10-09 10:59:57
0 跟貼 0

面向具身場景的生成式渲染器TC-Light來了，代碼已開源

機器之心Pro 2025-09-25 18:44:02
0 跟貼 0

又一國產圖像大模型開源！實測連續P圖絕了，中文渲染是短板

智東西 2025-12-08 19:06:18
0 跟貼 0
剛剛，英偉達CUDA迎來史上最大更新！

機器之心Pro 2025-12-08 18:12:05
2 跟貼 2

告別「面癱」配音，InfiniteTalk開啟從口型同步到全身表達新范式

機器之心Pro 2025-08-28 14:12:20
0 跟貼 0

第二波DeepSeek沖擊：V3.2 改寫中國云生態與芯片生態

華爾街見聞官方 2025-12-06 15:30:07
10 跟貼 10
谷歌HOPE架構來了！突破大模型長期記憶難題，智能體要爆發？

雷科技 2025-12-08 21:13:58
0 跟貼 0

真是邏輯詭才啊，這么刁鉆的角度他是咋想到的

天才設計師 2025-12-06 23:22:23
3 跟貼 3
DeepSeek V3到V3.2的進化之路，一文看全

機器之心Pro 2025-12-08 14:07:45
0 跟貼 0
為什么對罪犯“越狠”，可能害處越大？——刑罰計算的底層邏輯

周兆成律師 2025-12-06 10:00:00
26 跟貼 26
PosterGen：告別學術海報制作煩惱，從PDF生成可編輯PPTX學術海報

機器之心Pro 2025-09-04 18:05:43
0 跟貼 0
小紅書AIGC團隊提出圖像和視頻換臉新算法DynamicFace

機器之心Pro 2025-08-12 16:25:48
0 跟貼 0
開牌就甩王炸，WTT總決賽這簽抽得離譜，開賽時間確定

真理是我親戚 2025-12-08 16:55:50
2 跟貼 2
跟上百個大廠人聊過，為什么說字節的校招生成長最快？

大廠青年 2025-12-08 20:34:33
0 跟貼 0
新國標電動自行車陸續到店開售價格如何？

新京報 2025-12-08 07:19:40
8568 跟貼 8568
Ilya剛預言完，世界首個原生多模態架構就來了：視覺和語言被焊死

量子位 2025-12-06 21:40:40
24 跟貼 24
寒潮級“王炸”冷空氣來襲平均氣溫將下降8-11℃

文都桐網 2025-12-08 16:07:27
0 跟貼 0
卓創資訊：公司已完成DeepSeek系列大模型本地化部署，除此外，未與DeepSeek建立業務合作

每日經濟新聞 2025-12-08 14:25:34
0 跟貼 0
【DeepSeek談藝】林晨曦·水彩畫 | 筆尖綻放的花，亦是生命的可能

文化視界網 2025-12-07 15:46:44
0 跟貼 0
美國主持人，花式夸DeepSeek：中國連取名字都完爆美國

幽默大聯盟 2025-12-04 14:43:14
1 跟貼 1
開局王炸只有一季，這6部高分美劇讓觀眾直呼可惜

張發林 2025-12-08 22:29:05
0 跟貼 0
已正式啟動福建適齡男子必須全部進行兵役登記

漳視新聞 2025-12-08 10:52:49
2239 跟貼 2239
金魚損失隨機剔除token，讓AI不再死記硬背

量子位 2025-09-03 17:37:23
0 跟貼 0
《冒險島》游輪發布會放大招！這些新內容都堪稱王炸！

碎碎念工坊 2025-12-08 17:16:26
0 跟貼 0
為何風與潮未播先火？看到主演陣容那刻，才懂何為真正的王炸組合

扒姐追娛 2025-12-08 21:02:06
1 跟貼 1
【DeepSeek談藝】王建彬·油畫丨古意融油彩，丘園寄清歡

文化視界網 2025-12-08 17:43:59
0 跟貼 0
北京大學AI DAY暨信息科學技術學院第四十六期“知存講座”順利舉辦

濮陽市廣播電視臺 2025-12-08 15:54:28
0 跟貼 0
預測下一個像素還需要幾年？谷歌：五年夠了

機器之心Pro 2025-11-26 15:48:35
0 跟貼 0
罕見！遼寧艦沿琉球群島北上

揚子晚報 2025-12-08 12:37:37
1057 跟貼 1057
從分鐘級等待到20倍超速：LightX2V重寫AI視頻生成速度上限

機器之心Pro 2025-12-08 14:11:58
0 跟貼 0
斯坦福最火CS課：不讓學生寫代碼，必須用AI

機器之心Pro 2025-12-08 18:44:00
0 跟貼 0
郭德綱被約談整改，冤不冤？背后的邏輯是什么？

雨月海星 2025-12-08 03:46:37
0 跟貼 0
干枯了三十多年，鄭州“母親河”賈魯河源頭泉水復涌，水溫近30℃，附近民眾興奮不已，奔走相告

極目新聞 2025-12-08 14:40:30
120 跟貼 120
AI醫療影像：在數據“圍城”中如何突圍

經濟觀察報 2025-12-08 15:03:13
0 跟貼 0
一場丑陋的輸球，3個事實清晰，誰注意小卡哈登數據，可以解散了

體壇大辣椒 2025-12-06 14:26:18
3 跟貼 3
特斯拉人形機器人演示時翻車，摔倒前突然做出慌忙“摘頭顯”動作，疑似模仿遠程操作員，馬斯克曾回應其由AI驅動、非遙控

揚子晚報 2025-12-08 21:07:35
0 跟貼 0
看完最新國產AI寫的公眾號文章，我慌了！

量子位 2025-12-08 21:34:55
0 跟貼 0
美媒稱烏東戰局正發生急劇變化

參考消息 2025-12-08 12:53:03
2 跟貼 2
南寧一小學招標公告標題變聊天記錄，項目公司發布情況說明

界面新聞 2025-12-08 20:00:32
1 跟貼 1

AI寒武紀

專注于人工智能，科技領域

1002文章數 375關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

親子

本地

手機

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
明末究竟有多難，無法阻止的歷史進程
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

DeepSeek王炸：10倍壓縮率，97%解碼精度！上下文光學壓縮登場

國產機械硬盤尚未攻克，華為高管呼吁

江蘇男子貴州投資養羊損失近百萬 543只羊被"躲貓貓"

江蘇男子貴州投資養羊損失近百萬 543只羊被"躲貓貓"

一位大學美術生，如何用4年成為頂級跑者？

章子怡被說拜高踩低 主動和卡梅隆熱聊

百億金融爆雷 浙商大佬"朋友圈"也不靈了

純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

態度原創

NF1患兒陷身材矮小困境，生長激素治療的臨床考量與安全監測路徑

云游安徽｜七千年敘事，第一章寫在蚌埠

三星三折疊手機：主\副屏觸控+側邊指紋方案來自匯頂

章子怡被說拜高踩低主動和卡梅隆熱聊

百億金融爆雷浙商大佬"朋友圈"也不靈了

純電全尺寸大六座凱迪拉克"小凱雷德"申報圖曝光