1月29日,百度正式發布并開源新一代文檔解析模型PaddleOCR-VL-1.5。該模型以僅0.9B參數的輕量架構,在全球權威文檔解析評測榜單OmniDocBenchV1.5中取得全球綜合性能第一成績,整體精度達到94.5%,超過Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等模型。
值得關注的是,PaddleOCR-VL-1.5全球首次實現OCR模型的“異形框定位”能力,使機器能夠精準識別傾斜、彎折、拍照畸變等非規則文檔形態,首次讓“歪文檔”實現穩定、可規模化解析。該技術解決了傳統OCR模型在移動拍照、掃描件變形、復雜光照等真實場景中因文檔形變導致的識別失敗問題,可廣泛應用于金融票據處理、檔案數字化、政務文檔流轉等場景。
PaddleOCR-VL-1.5基于文心大模型進行開發,在OmniDocBenchV1.5多個關鍵指標上取得領先表現。其中,表格結構理解(92.8分)和閱讀順序預測(95.8分)兩項核心指標上均位列第一,分別領先Gemini-3-Pro、DeepSeek-OCR等主流模型2–5分不等。在文檔閱讀順序預測任務中,其版面邏輯解析錯誤率僅為同類其他模型約一半。這表明,PaddleOCR-VL-1.5在復雜文檔結構還原與版面邏輯理解方面具備更高穩定性,在合同、財報等高復雜度業務場景中擁有更高可用性。
![]()
2025年10月16日,百度首次發布并開源PaddleOCR-VL模型,在OmniDocBenchV1.5榜單中取得全球SOTA成績,并連續五天登頂HuggingFace全球模型總趨勢榜與ModelScope全球模型總趨勢榜雙榜第一。
相比于上代,在功能層面,PaddleOCR-VL-1.5進一步集成印章識別、文本檢測與識別等任務能力,關鍵指標持續領跑;同時針對特殊場景與多語種識別進行系統優化,在生僻字、古籍文獻、多語種表格、下劃線與復選框等復雜結構識別方面顯著提升,并新增對藏語、孟加拉語等語種的支持。模型還支持跨頁表格自動合并與跨頁段落標題識別,有效解決長文檔解析中的結構斷裂問題。
近半年來,全球主流模型廠商密集布局OCR領域。1月27日,深度求索發布新一代OCR模型DeepSeek-OCR-2,引入“因果流查詢”機制,并將語言模型融入視覺編碼,在OmniDocBenchV1.5中實現91.09%精度。與此同時,MistralAI、字節跳動、騰訊等企業也相繼推出新一代OCR模型,行業競爭持續加劇。
業內分析認為,隨著大模型加速進入金融、政務、制造等高復雜度業務流程,文檔解析能力正從“能用”走向“穩定可規模化落地”。PaddleOCR-VL-1.5在精度、復雜場景適應性與工程化能力上的系統突破,有望進一步降低產業應用門檻,推動OCR技術在真實生產環境中的深度落地。
目前,PaddleOCR-VL-1.5已全面開源,開發者可通過GitHub、HuggingFace獲取,并在PaddleOCR官網進行在線體驗或通過百度智能云千帆平臺調用API接口。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.