![]()
10月16日晚,百度正式發布并開源自研多模態文檔解析模型PaddleOCR-VL。在全球權威文檔解析評測榜單OmniBenchDoc V1.5中,PaddleOCR-VL以92.6分取得綜合性能全球第一成績,四大核心能力(文本、表格、公式、閱讀順序)全線SOTA,超越 GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL-72B等主流多模態大模型,以及MonkeyOCR-Pro-3B、MinerU2.5、dots.ocr等OCR專業模型,刷新全球OCR VL模型性能天花板。
![]()
據了解,PaddleOCR-VL其核心模型參數僅0.9B,輕量高效,能夠在極低計算開銷下,精準識別文本、手寫漢字、表格、公式、圖表等復雜元素,支持109 種語言,覆蓋中文、英語、法語、日語、俄語、阿拉伯語、西班牙語等多語場景,廣泛適用于政企文檔管理、知識檢索、檔案數字化、科研信息抽取等文檔智能任務。
作為文心4.5衍生模型,PaddleOCR-VL-0.9B通過融合NaViT動態分辨率視覺編碼器與ERNIE-4.5-0.3B語言模型,在精度與效率上取得雙重突破。
精度方面,在OmniDocBench v1.5上,PaddleOCR-VL實現了文本編輯距離僅0.035、公式識別CDM91.43、表格 TEDS93.52、閱讀順序預測誤差值0.043的紀錄級表現,模型在復雜文檔、手寫稿、歷史檔案識別等高難度場景中亦能表現穩定。
![]()
![]()
推理方面,在單張A100GPU上,PaddleOCR-VL每秒可處理1881個Token,推理速度較 MinerU2.5提升14.2%,較 dots.ocr 提升253.01%。
![]()
區別于傳統OCR僅能逐行識別文字,PaddleOCR-VL能夠像人一樣讀懂、理解復雜版面結構,精準提取財報表格、數學公式、課堂手寫筆記等多元信息,并在識別后自動還原符合人類閱讀習慣的閱讀順序,精準區分標題、正文、圖片與圖注,確保信息無遺漏、邏輯不混亂。
![]()
架構上,PaddleOCR-VL 采用創新的兩階段架構:第一階段由 PP-DocLayoutV2 模型負責版面檢測與閱讀順序預測;第二階段由 PaddleOCR-VL-0.9B 識別并結構化輸出文字、表格、公式、圖表等元素。相較端到端方案,能夠在復雜版面中更穩定、更高效,有效避免多模態模型常見的幻覺與錯位問題。
憑借輕量架構與高精度表現,PaddleOCR-VL 在性能、成本和落地性上實現最佳平衡,具備強實用價值。其結構化輸出能力還能與 RAG(檢索增強生成)系統深度結合,為大模型提供高質量知識輸入,成為 AI 知識處理新階段的重要基礎設施。
@以上內容版權歸屬「iNews新知科技 」所有,如需轉載,請務必注明。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.