之前和 OpenAI 的做交流,突然提了一個問題
文字,是信息壓縮的最好方式嗎?
當時沒想太多,直到今天
DeepSeek 開源了 DeepSeek-OCR
用 10 個視覺 token,表達 100 個文本 token
![]()
github.com/deepseek-ai/DeepSeek-OCR
我突然意識到:這個問題可能有答案了
具體對比:
? DeepSeek-OCR 用 100 個 token ,超過了 GOT-OCR2.0 的 256 個 token
? DeepSeek-OCR 用 800 個 token ,超過了 MinerU2.0 的 6000+ token
? 即使壓縮到 20 倍 ,準確率還有 60%
現在所有的多模態大模型都面臨一個瓶頸:
token 消耗太多了
處理一頁 PDF 就要消耗幾千個 token
如果你想處理一本書、一份研究報告、一堆財務文檔
context window 立刻就爆了
每個 token 都要算錢、消耗顯存、拖慢推理速度
DeepSeek-OCR 用數據告訴你
10 倍壓縮,幾乎無損
信息論視角
對于這個問題
Hacker News 上展開了很大的討論
![]()
是當前 Hacker News 上的最火話題
"為什么這種方法有效?"
"是不是文本 token 太粒狀了,沒接近理想的熵編碼?"
"切換到視覺 token 是不是逃脫了'一次一個詞'的限制?"
![]()
Hacker News 評論第一條
有個回答說的很有意思
文本 token 本質上是離散的查找表
你有個小整數(token ID)
然后查表得到一個向量
但視覺 token 是連續值向量
沒有查找表
直接從圖像編碼成向量
這意味著什么?
文本 token 的「token 空間」是有限的
通常就 10 萬個可能的 token
每個 token 對應一小段 UTF-8 字節
而且大多數分詞器不會創建跨越詞邊界的 token
視覺 token 的「token 空間」要大得多
它是高維浮點數向量,每個維度都可以取很多值
所以視覺 token 能傳達更多的 bits per token
這才是壓縮的關鍵
![]()
圖片
另一個人補充
文本 token 是子詞單元
視覺 token 在語義空間
語義空間顯然比子詞切片壓縮得多
![]()
免責聲明:我不懂
還有人從視覺角度解釋
人類就是通過視覺看文本的
所以文本必須有適應視覺噪聲的機制
看起來相似的詞不能出現在相似的上下文
否則會混淆
挺有意思的
文本為了適應視覺識別
反而在編碼上有些"冗余"
而視覺 token 直接在語義空間工作
可以更高效
所以 10 倍的壓縮比
從信息論角度看
其實挺合理的
DeepSeek-OCR 做的事情
是把這個直覺量化了
用實驗數據證明:
一圖確實勝千言
當然,我并不是這個領域的,評價不到正確與否,有懂的兄弟,還請評論區指導
怎么做到的
DeepSeek 這個東西的核心
是一個叫 DeepEncoder 的架構
380M 參數
這東西的設計很講究
它由三部分組成
80M 的 SAM-base + 16 倍的卷積壓縮器 + 300M 的 CLIP-large
![]()
DeepEncoder架構流程圖
這個設計有兩個關鍵
第一個關鍵是「低激活」
大部分 VLM 的視覺編碼器激活值特別大
InternVL2-76B 的激活參數是 76B
Qwen2.5-VL-72B 的激活參數是 72B
DeepSeek-OCR 的解碼器雖然是 3B 參數
但激活參數只有 570M
因為它用了 MoE 架構
每次只激活一部分專家
這意味著推理時顯存占用小、速度快
第二個關鍵是「多分辨率統一」
它設計了 6 種模式
從 Tiny 模式的 64 個 token
到 Gundam 模式的 800+ 個 token
你可以根據文檔復雜度選擇
幻燈片用 Tiny 就夠了
報紙得用 Gundam
另外值得一提的是
DeepSeek-OCR 不只能識別文字
還能「深度解析」文檔里的圖表、幾何圖形、化學式
論文里叫這個能力 OCR 2.0
比如金融報告里的圖表
它能直接轉成結構化數據
化學文檔里的結構式
它能轉成 SMILES 格式
![]()
化學結構,也不在話下
這對金融、科研、教育領域太關鍵了
最有想象力的部分
論文最后有個很酷的設想
用降低圖像分辨率來模擬人類的記憶遺忘
這個類比特別有意思
人類記憶有個特點
越久遠的事情,記得越模糊
剛發生的事,記得清清楚楚
一小時前的事,還很清晰
一天前的事,開始模糊
一周前的事,已經很模糊
一年前的事,幾乎忘光了
視覺感知也是這樣
10cm 的東西看得清清楚楚
20m 的東西幾乎看不清
DeepSeek-OCR 提出
可以用分辨率來模擬這種衰減
DeepSeek-OCR 提出了一個對應關系
他們把不同的分辨率模式
對應到人類記憶和視覺感知的清晰度等級
這個類比是這樣的
? 一小時前的事,還很清晰,對應 Gundam 模式(800+ tokens)
? 一周前的事,已經很模糊,對應 Base 模式(256 tokens)
? 一年前的事,幾乎忘光了,對應 Tiny 模式(64 tokens)
最近的對話用高分辨率
更早的對話逐漸降低分辨率
這樣既保留了歷史信息
又控制了 token 數量
遠期記憶自然「淡化」
就像人類遺忘一樣
這個設想論文里說還是早期階段
但想象空間很大
如果真的能做到
就能實現「理論上無限的 context window」
因為你不需要保持所有信息的高保真度
只需要讓信息隨時間衰減
就像人類記憶一樣
開源和局限
整個項目采用 MIT 許可證開源
代碼、模型權重、技術論文全部公開
![]()
GitHub:
github.com/deepseek-ai/DeepSeek-OCR
Hugging Face:
huggingface.co/deepseek-ai/DeepSeek-OCR
說回來
這個模型也有局限
它不是聊天機器人
因為沒有 SFT 階段
某些能力需要用特定的 prompt 才能激活
超過 10 倍的壓縮
準確率會明顯下降
記憶遺忘機制還只是設想
真正驗證它在長上下文場景的效果
需要更多實驗
但即使有這些局限
DeepSeek-OCR 已經證明了一件事
視覺-文本壓縮這條路是走得通的
最后
DeepSeek-OCR 最有價值的地方
不在于它是一個好用的 OCR 工具
而在于它用數據驗證了一個假設
視覺 token 確實可以更高效地表達信息
現在所有的 VLM 都是幾千個 token 起步
推理慢、顯存占用大、長文檔處理困難
如果能把視覺 token 壓縮 10 倍還幾乎無損
整個多模態系統的效率都能提升一個量級
記憶遺忘機制的設想也很有意思
人類會遺忘
不是因為大腦容量不夠
而是因為遺忘本身是一種優化策略
你不需要記住所有細節
只需要記住重要的、近期的信息
如果這條路真的走通了
可能會改變我們對長上下文問題的理解
不是無限擴大 context window
而是讓信息自然衰減
就像人類記憶一樣
回到開頭 OpenAI 朋友的那個問題
文字,是信息壓縮的最好方式嗎?
DeepSeek-OCR 用數據給出了答案
而且,它是開源的
任何人都可以用、可以改進、可以基于它做研究
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.