大家好,我是 Ai 學習的老章
![]()
DeepSeek-OCR
DeepSeek 最近發布了《DeepSeek-OCR:基于視覺壓縮的大模型長上下文增強方案》這篇論文,同步開源了模型文件。
最近一段時間好像是迎來了 OCR 的黃金時代,百度的 PaddleOCR-VL、阿里 Qwen3-VL、小紅書的 dots-ocr、Nanonets-OCR2 等等。
更早之前我也測試過一些,閱讀不佳就沒再繼續
論文上看,DeepSeek-OCR有兩個核心,一個是純粹的 OCR,這是本文測試的重點。
![]()
另一個就是上下文光學壓縮(Contexts Optical Compression),解決了大模型在長上下文處理上的算力瓶頸。這玩意我是看不太懂,只看到市面上幾乎全部文章吹捧。
DeepSeek-OCR 不僅是 OCR 模型,通過視覺壓縮實現“以小博大”,在長文本處理上突破了算力與精度的平衡,是大模型長上下文的一個解決方案,它讓 AI 的“記憶”更像人類,或許正在打開通往下一代智能的鑰匙。
再回到 OCR 方面,DeepSeek-OCR 表現不俗:
壓縮比 ≤10 倍時,準確率 >95%,幾乎無損。
ICDAR 2023 數據集:10 倍壓縮下準確率 97.3%,速度 8.2 頁/秒,顯存僅 4.5GB。
對比 MinerU2.0(6000+ tokens/頁,1.5 頁/秒,12.8GB 顯存),優勢明顯。
財報:286 頁年報,表格還原率 95.7%,耗時 4 分鐘(
論文:公式識別率 92.1%,LaTeX 可直接使用。
合同:批注關聯率 89.5%,比 Tesseract 高 27%。
我沒有本地部署,直接使用了 HF 上一個 Space,應該是用的 Gradio 開發的
![]()
https://huggingface.co/spaces/khang119966/DeepSeek-OCR-DEMO
測試樣例取自我之前這篇文章:
文中我測試幾個大模型(Kimi、Qwen-3-235B-A22B、Claude-3.7-sonnet、GPT-4.1、Gemini 2.5 Pro)在 latex 公式識別中的表現,測試從帶公式的圖片中識別出公式代碼,有兩個手寫公式識別,難度不小。當時 DeepSeek 不是多模態,沒有參與對比,本文剛好補上。
例 1:中高難度,模糊手寫,數字是歐洲寫法,比如 7 中間加了一橫,其中有一個 8 寫的極像 6
![]()
之前我測試只有 Gemini 2.5 Pro 可以完成任務,DeepSeek-OCR 犯了和其他模型一樣的問題,其中一個模糊的 8 識別成了 6。
另外這個工具有一段奇怪的字符串
刪掉之后就正常了,后面幾個,為了展示方便,我都刪了
百度Paddle也沒完成,8識別成了6.
例 2:簡單點,印刷版,可以完成任務,這個太簡單了,其他模型也都可以勝任
![]()
例 3:上難度,多個復雜公式一次識別
![]()
還行,有瑕疵,中間有奇怪符號,而且沒有換行
百度完成的就很好
![]()
例 4:復雜公式,帶矩陣運算![]()
DeepSeek-OCR 完成的不錯
例 5:最高難度,模糊手寫,公式混在文本中,橫線與筆記本自帶的線混在一起
![]()
這個只有 Gemini 2.5 Pro 成功識別的題目,DeepSeek- OCR 完成的很一般
![]()
最后在看一個復雜表格識別![]()
DeepSeek- OCR 沒有把表頭識別好
![]()
百度 paddle 就很 OK
![]()
中間很多我沒有同時讓百度表現,因為也是用了 HF 的 Space,很不穩定
![]()
總結看DeepSeek-OCR 確實很優秀,但是絕不是 SOTA 級別
補充說明,不是 DeepSeek-OCR 不好,它有我無法理解的偉大創新。單 OCR 這一塊,單這幾個實例,它確實不如百度 PaddleOCR-VL 這個 0.9B 的小模型。
此外,我還測試了一文中提到的 API,調用 DeepSeek-OCR 把 PDF 轉 Markdown。
速度極快,22 頁,一分鐘不到。返回的是 json 格式,正文部分大量\n 預覽起來很費勁,簡單看,它沒有去理解配圖,其他都還行。
![]()
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.