網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全球OCR新王來(lái)自中國(guó)開(kāi)源！GitHub狂攬73300+Star

2026-03-30 22:11:02　來(lái)源: 量子位

北京舉報(bào)

分享至

西風(fēng) 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

GitHub OCR項(xiàng)目之王剛剛歷史性易主。

誕生近40年、統(tǒng)治OCR領(lǐng)域的技術(shù)標(biāo)桿Tesseract OCR，被中國(guó)開(kāi)源拉下王座——

百度文心衍生模型PaddleOCR以73300+Star，正式登頂GitHub全球OCR項(xiàng)目榜，終結(jié)谷歌Tesseract OCR長(zhǎng)期霸榜局面。

這也是中國(guó)開(kāi)源在這一基礎(chǔ)賽道上，首次拿下全球Star第一。

不僅如此，在Hugging Face上，PaddleOCR也長(zhǎng)期處于OCR與文檔解析領(lǐng)域的頭部位置，已經(jīng)成為全球開(kāi)發(fā)者的必備工具。

消息一出，開(kāi)發(fā)者社區(qū)瞬間炸開(kāi)了鍋。

從“跟跑”到“領(lǐng)跑”，大模型時(shí)代，中國(guó)開(kāi)源項(xiàng)目正在用實(shí)力改寫(xiě)全球競(jìng)爭(zhēng)格局。

光超越還不夠，劃重點(diǎn)：

PaddleOCR同步升級(jí)服務(wù)放出一波福利，官?免費(fèi)每?解析?數(shù)翻番，由1萬(wàn)提升?2萬(wàn)。用戶還可通過(guò)OpenClaw直接調(diào)用PaddleOCR Skill，為其接入專業(yè)“視覺(jué)”能力。

PaddleOCR OCEAN生態(tài)聯(lián)盟也重磅發(fā)布，面向核心開(kāi)源貢獻(xiàn)者、企業(yè)用戶、模型托管平臺(tái)及硬件廠商等OCR上下游伙伴，這將進(jìn)一步推動(dòng)OCR能力在更廣泛場(chǎng)景中的應(yīng)用落地。

大模型時(shí)代，PaddleOCR是如何拔得頭籌的？OCR又為何如此重要？

超越谷歌Tesseract OCR，新王者誕生

在OCR領(lǐng)域，Tesseract OCR無(wú)疑是一座里程碑式的存在，它的發(fā)展歷程跨越四十多年。

1985年，Tesseract OCR誕生于惠普公司的研發(fā)項(xiàng)目。彼時(shí)的OCR技術(shù)尚處于起步階段，核心需求集中在商業(yè)文檔的自動(dòng)化識(shí)別與錄入。

1994年，Tesseract OCR核心版本開(kāi)發(fā)完成。在1995年美國(guó)內(nèi)華達(dá)大學(xué)拉斯維加斯分校（UNLV）組織的OCR評(píng)測(cè)中，Tesseract OCR憑借優(yōu)異的印刷體識(shí)別精度，躋身全球頂尖OCR引擎行列。

不過(guò)，隨著惠普業(yè)務(wù)重心的調(diào)整，1996年后，Tesseract OCR的研發(fā)工作幾乎陷入停滯。直到2005年，惠普決定將Tesseract OCR開(kāi)源。

轉(zhuǎn)折點(diǎn)出現(xiàn)在2006年，谷歌看中了Tesseract OCR的技術(shù)潛力，接過(guò)手來(lái)將其納入自身開(kāi)源生態(tài)體系。研發(fā)團(tuán)隊(duì)修復(fù)了大量歷史遺留的bug，優(yōu)化了引擎的運(yùn)行速度和兼容性，更緊跟技術(shù)潮流，推動(dòng)其完成了從傳統(tǒng)算法到深度學(xué)習(xí)的跨越。

但技術(shù)世界的法則從來(lái)如此：沒(méi)有永恒的王者，只有持續(xù)迭代的創(chuàng)新

文心大模型衍生而來(lái)的PaddleOCR，正是這場(chǎng)變革的引領(lǐng)者。

PaddleOCR的登頂，并非一朝一夕之功。它誕生于2020年，是深度學(xué)習(xí)時(shí)代下原生基于深度學(xué)習(xí)技術(shù)構(gòu)建的模型。

2023年，大模型浪潮席卷整個(gè)AI行業(yè)，OCR賽道也迎來(lái)代際更替。文心大模型的持續(xù)高速迭代，直接為PaddleOCR帶來(lái)了全新的能力天花板

PaddleOCR與文心大模型之間，逐漸玩出了一套非常有意思的雙向賦能組合拳:

一個(gè)負(fù)責(zé)“看”：用高精度的文本提取能力，把文檔中的文字、表格、公式準(zhǔn)確撈出來(lái)，為大模型提供“食材”。

一個(gè)負(fù)責(zé)“懂”：文心大模型快速迭代，在多模態(tài)方向?qū)崿F(xiàn)突破，視覺(jué)理解、跨模態(tài)融合、結(jié)構(gòu)化輸出，能力版圖一步步補(bǔ)齊。文心不僅能消化這些信息，還能反哺PaddleOCR，讓它真正理解復(fù)雜文檔的邏輯脈絡(luò)。

這種協(xié)同直接推動(dòng)了PaddleOCR的爆發(fā)式增長(zhǎng)。

Star History顯示，GitHub PaddleOCR Star數(shù)自2024年起呈現(xiàn)加速增長(zhǎng)態(tài)勢(shì)。

基于文心大模型技術(shù)底座，PaddleOCR-VL、PaddleOCR-VL-1.5核心模型相繼推出。

2025年10月，百度發(fā)布并開(kāi)源自研多模態(tài)文檔解析模型PaddleOCR-VL

PaddleOCR-VL僅0.9B參數(shù)量，就在全球權(quán)威文檔解析評(píng)測(cè)榜單OmniDocBench V1.5上拿下92.6分的成績(jī)，超越Gemini-2.5 Pro、GPT-4o等與其體量懸殊的多模態(tài)大模型以及OCR領(lǐng)域的垂直模型dots.ocr、MinerU等，獲得綜合性能全球第一。

在文本識(shí)別、公式識(shí)別、表格理解、閱讀順序四大核心能力上，PaddleOCR-VL全面刷新SOTA：

同時(shí)，發(fā)布16小時(shí)內(nèi)，PaddleOCR-VL直沖HuggingFace Trending全球第一、ModelScope Trending全球第一、HuggingFace Paper Trending全球第一，持續(xù)五天登頂。

今年一月底，百度再次發(fā)力，發(fā)布并開(kāi)源新一代文檔解析模型PaddleOCR-VL-1.5

同樣僅0.9B參數(shù)，PaddleOCR-VL-1.5在OmniDocBench V1.5上的整體精度再提升，達(dá)到94.5%，超過(guò)Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等，全球綜合性能排第一。

新一代模型更進(jìn)一步實(shí)現(xiàn)了全球首次“異形框定位”

模型能夠精準(zhǔn)識(shí)別傾斜、彎折、拍照畸變等非規(guī)則文檔形態(tài)，讓“歪文檔”實(shí)現(xiàn)穩(wěn)定、可規(guī)模化解析。金融票據(jù)處理、檔案數(shù)字化等真實(shí)場(chǎng)景中的老大難問(wèn)題，終于有了解決方案。

目前，PaddleOCR用戶已覆蓋160個(gè)國(guó)家和地區(qū)，支持110+種語(yǔ)言識(shí)別，成為真正意義上具有全球影響力的開(kāi)源項(xiàng)目。

5M參數(shù)模型硬剛千億模型

這些只是水面之上的部分。讓PaddleOCR實(shí)現(xiàn)翻盤(pán)的，還有水面之下的技術(shù)突破、積淀和創(chuàng)新。

CVPR 2026，PaddleOCR團(tuán)隊(duì)有兩篇研究成果成功被收錄。

這兩篇論文瞄準(zhǔn)的都是OCR領(lǐng)域最前沿、最棘手的行業(yè)難題。拆開(kāi)這兩篇論文，或許就能從更深層的技術(shù)視角看懂PaddleOCR到底強(qiáng)在哪。

首先是PP-OCRv5這項(xiàng)工作。

PP-OCRv5論文鏈接: https://arxiv.org/pdf/2603.24373v1

PP-OCRv5提出的是一個(gè)反直覺(jué)的事：參數(shù)不一定是越大越好。

模型參數(shù)僅5M，卻能在手寫(xiě)、多語(yǔ)言、自然場(chǎng)景下表現(xiàn)超越GPT-4o等千億參數(shù)的大模型。

怎么做到的？答案是“數(shù)據(jù)為中心”的系統(tǒng)化優(yōu)化策略

OCR領(lǐng)域，大參數(shù)視覺(jué)語(yǔ)言模型占主導(dǎo)。但這類通用大模型普遍存在定位精度不足、文本幻覺(jué)等致命問(wèn)題，而傳統(tǒng)輕量化OCR模型又過(guò)度聚焦架構(gòu)創(chuàng)新，始終被數(shù)據(jù)質(zhì)量與規(guī)模的短板限制性能。

PP-OCRv5正是在這樣的背景下誕生的。

百度飛槳團(tuán)隊(duì)沒(méi)有盲目堆模型規(guī)模，而是提出了一套針對(duì)OCR數(shù)據(jù)的量化分析框架，從數(shù)據(jù)難度、數(shù)據(jù)準(zhǔn)確性、數(shù)據(jù)多樣性三個(gè)維度，徹底重構(gòu)了OCR模型的數(shù)據(jù)訓(xùn)練策略。

實(shí)驗(yàn)驗(yàn)證了數(shù)據(jù)三維度優(yōu)化的有效性。

關(guān)鍵是，團(tuán)隊(duì)發(fā)現(xiàn)了這樣一條規(guī)律：

模型訓(xùn)練存在明確的“難度甜點(diǎn)區(qū)”，中等難度的數(shù)據(jù)訓(xùn)練效率最高，簡(jiǎn)單樣本和高難度樣本都需要控制比例；特征多樣性遠(yuǎn)比盲目堆砌數(shù)據(jù)量更重要；而小模型對(duì)標(biāo)簽噪聲居然有天然的強(qiáng)魯棒性。

在內(nèi)部多場(chǎng)景基準(zhǔn)測(cè)試中，PP-OCRv5加權(quán)準(zhǔn)確率從PP-OCRv4的53.0%大幅提升至80.1%，在OmniDocBench上，該模型以5M參數(shù)實(shí)現(xiàn)0.067的平均歸一化編輯距離，在專用OCR模型中達(dá)到最優(yōu)水平，在多語(yǔ)言處理、旋轉(zhuǎn)文本、復(fù)雜背景等場(chǎng)景表現(xiàn)穩(wěn)健，定位精度更高、幻覺(jué)更少、計(jì)算成本遠(yuǎn)低于百億參數(shù)視覺(jué)語(yǔ)言模型。

這一切都指向一個(gè)核心結(jié)論：數(shù)據(jù)策略的上限還沒(méi)有被充分挖掘。通過(guò)精細(xì)化的“數(shù)據(jù)工程”，小模型可以在OCR場(chǎng)景媲美大模型。

在PaddleOCR團(tuán)隊(duì)看來(lái)，“數(shù)據(jù)本身，可能會(huì)慢慢變成?條更獨(dú)?、也更重要的能?曲線”。

再來(lái)看另一項(xiàng)被接收的工作，正是PaddleOCR-VL

PaddleOCR-VL論文鏈接: https://arxiv.org/pdf/2603.24326

如果說(shuō)PP-OCRv5解決的是“參數(shù)效率”，那PaddleOCR-VL進(jìn)一步解決的是“計(jì)算困境”。

高分辨率文檔解析一直是VLM的痛點(diǎn)——輸入一張高清文檔，視覺(jué)Token數(shù)量呈二次方增長(zhǎng)，算力消耗爆炸。但文檔圖像中大量是空白背景，算力浪費(fèi)嚴(yán)重。

PaddleOCR團(tuán)隊(duì)的解法很巧妙：別一開(kāi)始就處理整張圖，先找到重點(diǎn)

他們提出了“由粗到細(xì)”（Coarse-to-Fine）架構(gòu)：先用一個(gè)輕量級(jí)的有效區(qū)域聚焦模塊（VRFM）定位文檔中的關(guān)鍵區(qū)域，再讓0.9B的模型只處理這些區(qū)域。

結(jié)果，視覺(jué)Token數(shù)量只有競(jìng)品的1/3到1/2，精度反而更高。如前所述，在OmniDocBench V1.5權(quán)威榜單上，PaddleOCR-VL以92.62分的綜合成績(jī)登頂全球第一。

總結(jié)來(lái)看，PaddleOCR的反超是技術(shù)代際更替的必然。

為什么AI廠商都在搶OCR？

如果把過(guò)去半年AI圈的熱鬧拉出一條時(shí)間線，會(huì)發(fā)現(xiàn)一個(gè)清晰的現(xiàn)象：

近半年，從巨頭到創(chuàng)業(yè)公司，國(guó)內(nèi)外OCR賽道迎來(lái)集體爆發(fā)。

2025年10月，百度PaddleOCR-VL、DeepSeek-OCR、Allen AI olmOCR-2、Nanonets-OCR2-3B、dots.ocr.base幾乎同時(shí)發(fā)布。

抱抱臉模型趨勢(shì)榜一度被OCR模型“屠榜”。

到了11月，騰訊HunyuanOCR問(wèn)世；12月，Mistral OCR 3發(fā)布。

2026年1月，LightOnOCR-2、DeepSeek-OCR-2、百度PaddleOCR-VL-1.5接踵而至。

2月，智譜GLM-OCR發(fā)布；3月，小紅書(shū)FireRed-OCR加入戰(zhàn)局。

為什么這么卷？?jī)蓚€(gè)字：數(shù)據(jù)

互聯(lián)網(wǎng)公開(kāi)的高質(zhì)量數(shù)據(jù)快被“啃”完，模型訓(xùn)練面臨數(shù)據(jù)虧空。行業(yè)廣泛判斷，大量有價(jià)值信息仍沉淀在文檔、書(shū)籍、合同、表格、掃描件等離線載體中。

OCR就是那把鑰匙。

這些海量非結(jié)構(gòu)化信息，無(wú)法直接被大模型理解與利用，必須經(jīng)過(guò)OCR，將圖像中的文字、版面結(jié)構(gòu)、表格、公式等轉(zhuǎn)化為機(jī)器可處理的電子化文本。

所以O(shè)CR的身份正在被重寫(xiě)：

從早期依賴手工規(guī)則的掃描小幫手，到特征工程與深度學(xué)習(xí)驅(qū)動(dòng)的高精度字符識(shí)別工具，再到如今與Transformer和Agent深度融合的新階段，它早已跳出“辦公室里的文檔提取器”定位。

現(xiàn)在，它是大模型數(shù)據(jù)生態(tài)的基座，是Agent理解真實(shí)世界的“眼睛”，是大模型變聰明的“鑰匙”

就連啟蒙全球千萬(wàn)學(xué)習(xí)者的AI大牛吳恩達(dá)，今年年初推出的新課程也是聚焦OCR。課程內(nèi)容就是關(guān)于智能體文檔提取（Agent Doc Extraction），也就是教你怎么給OCR裝上智能體大腦。

當(dāng)各家大模型的參數(shù)規(guī)模越來(lái)越接近，決勝的關(guān)鍵反而回到了最底層的數(shù)據(jù)獲取與處理能力。誰(shuí)擁有更強(qiáng)的OCR能力，誰(shuí)就掌握了現(xiàn)實(shí)世界的信息入口，誰(shuí)就能為自己的大模型提供源源不斷的高質(zhì)量養(yǎng)料。

PaddleOCR的登頂，正是這場(chǎng)角色轉(zhuǎn)換中最具標(biāo)志性的事件之一。

更值得關(guān)注的是，這場(chǎng)競(jìng)爭(zhēng)才剛剛開(kāi)了個(gè)頭。

未來(lái)，OCR的比拼會(huì)越來(lái)越“鉆”。可以想象的一種方向是場(chǎng)景化，不再追求大而全，而是把金融票據(jù)、醫(yī)療檔案、教育試卷等垂直場(chǎng)景做深做透；另一種是端云協(xié)同，輕量模型跑在手機(jī)、掃描儀上，本地快速識(shí)別，云端精準(zhǔn)優(yōu)化，既省算力又保隱私。

更大的想象空間在于OCR和多模態(tài)大模型、Agent更深度地融合，我們或許能看到真正的“全能信息處理助手”。

PaddleOCR的登頂，為中國(guó)廠商在OCR賽道拿下了領(lǐng)先身位。它背后折射出的，是中國(guó)開(kāi)源整體實(shí)力和全球影響力的加速趕超。

從底層基礎(chǔ)設(shè)施到前沿技術(shù)突破，中國(guó)開(kāi)源正在越來(lái)越多的賽道上拿出世界級(jí)的表現(xiàn)。OCR，只是其中一塊拼圖。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.