最近,國產OCR真的頻頻破圈。
昨天10月21日,HuggingFace全球模型熱榜前三——清一色全是OCR模型!
第一名:百度飛槳團隊的 PaddleOCR-VL(已連續五天登頂)
第二名:DeepSeek-OCR
第三名:NanonetOCR。
可以說,OCR成了AI界的“新頂流”。
我試了一下百度的,復雜數學公式、化學公式、行書手寫體,識別都很到位!
OCR(光學字符識別)早期只是“掃描識字”,但到了現在,它已經進化成了多模態文檔理解技術:
不僅能識別文字,還能看懂表格、公式、排版、邏輯結構。
這正是大模型進入“非結構化信息”時代的關鍵一環。
而這次,全球性能第一,刷新OCR天花板的,是百度PaddleOCR-VL
在10月16日開源了自研多模態文檔解析模型 PaddleOCR-VL。
雖然參數只有 0.9B(僅九億),但性能直接碾壓全球SOTA。
在國際權威評測 OmniBenchDoc V1.5 中,PaddleOCR-VL綜合得分 92.56分,刷新全球紀錄。
四大核心任務全線領先:
- 表格結構理解:93.52 vs DeepSeek的78.02,領先15.5分
- 公式識別:89.76 vs 89.45,更穩定精準
- 閱讀順序誤差降低54%,輸出更符合人類閱讀邏輯
- 支持109種語言,從中文到阿拉伯語全覆蓋
簡單說,就是一個輕量、高效、全球通吃的OCR超級模型。
值得注意的是,這次評測用的 OmniBenchDoc V1.5,是由清華大學、阿里達摩院、上海AI Lab、OpenDataLab等多家機構聯合發布的國際權威基準,被GPT-4o、Gemini-2.5、Qwen2.5-VL等主流模型采用。
換句話說,國產OCR這次不是“閉門自嗨”,而是在真正的全球舞臺上拿下第一。
百度的PaddleOCR項目在GitHub Star已超 60k+,累計下載量超 900萬,是唯一進入全球前十的中國OCR項目。
這場OCR“雙連炸”,不僅讓全球重新認識了中國AI的實力,也讓AI的“眼睛”,看得更清、更快、更聰明。
我只想說:當AI開始真正理解文檔,智能世界的大門,才算被徹底推開。
#PaddleOCR-VL #百度 #百度飛槳 #DeepSeek #AI異類弗蘭克
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.