![]()
大數據文摘出品
最近,DeepSeek 推出了一種全新的 OCR 系統,能讓 AI 在不超出內存限制的情況下,處理更長的文檔。
![]()
地址: https://github.com/deepseek-ai/DeepSeek-OCR?tab=readme-ov-file
這套系統的關鍵,是把文字當作圖像來壓縮。DeepSeek 發現,處理圖片反而比處理純文本更節省算力。
據其技術論文,系統在保留97% 信息量的前提下,可將文檔壓縮至原來的十分之一。
換句話說,一本上百頁的 PDF,經 DeepSeek 處理后,只需原來十分之一的 token 數量,就能被 AI 完整閱讀。
DeepSeek OCR 的核心由兩部分組成:一是圖像處理模塊,DeepEncoder,二是基于Deepseek-3B-MoE的文本生成器。.
DeepEncoder 擁有 3.8 億參數,負責將文檔圖片分析為壓縮后的視覺 token;文本生成器在此基礎上恢復文字與結構。
![]()
在技術上,它融合了 Meta 的SAM(Segment Anything Model)與 OpenAI 的CLIP 模型。
SAM 擔任局部視覺分析,CLIP 則提供全局語義關聯。兩者之間,嵌入了一個16 倍壓縮器,大幅減少圖像 token 數量。
一張 1024×1024 像素的圖片,起初被分為 4096 個 token;經壓縮后,只剩 256 個。這一過程的算力節省是數量級的:CLIP 的計算負擔因此顯著下降。
在低分辨率下,DeepSeek OCR 每張圖僅需 64 個視覺 token;高分辨率時也不超過 400。
相比之下,傳統 OCR 系統往往需要數千 token 才能完成同樣的任務。
![]()
DeepSeek 并不僅僅識別文字。它能識別圖表、化學式、幾何圖形等多種復雜結構。
研究團隊稱,系統可直接從財報圖表中提取結構化數據,并自動生成 Markdown 表格。
在“深度解析模式”下,它能將金融圖表、幾何圖形重新繪制成矢量圖,并同時保留說明文字。
測試結果顯示,DeepSeek OCR 在OmniDocBench 基準上超過了 GOT-OCR 2.0。
在僅使用 100 個視覺 token 的情況下,它的表現優于 GOT-OCR 2.0 使用 256 token 的結果。
即使在 800 token 以下,DeepSeek 也擊敗了MinerU 2.0,后者每頁需超過 6000 token。
![]()
根據對比數據,DeepSeek OCR 的Gundam-M 模式在中英文混合識別上取得了最佳編輯距離分數。
系統根據文檔復雜度自動選擇模式:簡單演示文檔用 64 token;普通報告約 100;復雜報紙需啟用“Gundam 模式”,上限 800 token。
此外,它還提供Resize、Padding、Multi-page、Sliding 四種策略,在多頁文檔中平衡壓縮率與準確性。
![]()
DeepSeek OCR 的訓練規模同樣罕見。研究團隊使用了三千萬頁 PDF 語料,覆蓋約一百種語言。
其中包括2500 萬頁中英文文檔,以及一千萬張合成圖表、五百萬化學公式、一百萬幾何圖形。
這些數據讓模型具備了跨領域、跨語言的泛化能力。
它不僅能保持原始排版,還能在輸出中附帶文字描述和圖像內容說明。
在多模態大模型中,文本上下文的限制一直是瓶頸。DeepSeek 的方法繞開了傳統 token 計數邏輯,用視覺 token 替代文本 token。
這使得語言模型能在“看圖”的同時完成“讀文”。
對研究者而言,這是一種近似“外接硬盤”的解決方案:通過視覺壓縮,AI 的上下文長度幾乎無上限。
這種方式也預示著未來的模型架構可能不再區分“文本理解”和“圖像理解”。
注:頭圖AI生成
作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
點「贊」的人都變好看了哦!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.