<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      全球OCR新王來自中國開源!GitHub狂攬73300+Star

      0
      分享至

      西風 發(fā)自 凹非寺
      量子位 | 公眾號 QbitAI

      GitHub OCR項目之王剛剛歷史性易主。

      誕生近40年、統(tǒng)治OCR領(lǐng)域的技術(shù)標桿Tesseract OCR,被中國開源拉下王座——

      百度文心衍生模型PaddleOCR以73300+Star,正式登頂GitHub全球OCR項目榜,終結(jié)谷歌Tesseract OCR長期霸榜局面。

      這也是中國開源在這一基礎(chǔ)賽道上,首次拿下全球Star第一。



      不僅如此,在Hugging Face上,PaddleOCR也長期處于OCR與文檔解析領(lǐng)域的頭部位置,已經(jīng)成為全球開發(fā)者的必備工具。

      消息一出,開發(fā)者社區(qū)瞬間炸開了鍋。

      從“跟跑”到“領(lǐng)跑”,大模型時代,中國開源項目正在用實力改寫全球競爭格局。



      光超越還不夠,劃重點:

      PaddleOCR同步升級服務放出一波福利,官?免費每?解析?數(shù)翻番,由1萬提升?2萬。用戶還可通過OpenClaw直接調(diào)用PaddleOCR Skill,為其接入專業(yè)“視覺”能力。

      PaddleOCR OCEAN生態(tài)聯(lián)盟也重磅發(fā)布,面向核心開源貢獻者、企業(yè)用戶、模型托管平臺及硬件廠商等OCR上下游伙伴,這將進一步推動OCR能力在更廣泛場景中的應用落地。

      大模型時代,PaddleOCR是如何拔得頭籌的?OCR又為何如此重要?

      超越谷歌Tesseract OCR,新王者誕生

      在OCR領(lǐng)域,Tesseract OCR無疑是一座里程碑式的存在,它的發(fā)展歷程跨越四十多年。

      1985年,Tesseract OCR誕生于惠普公司的研發(fā)項目。彼時的OCR技術(shù)尚處于起步階段,核心需求集中在商業(yè)文檔的自動化識別與錄入。

      1994年,Tesseract OCR核心版本開發(fā)完成。在1995年美國內(nèi)華達大學拉斯維加斯分校(UNLV)組織的OCR評測中,Tesseract OCR憑借優(yōu)異的印刷體識別精度,躋身全球頂尖OCR引擎行列。

      不過,隨著惠普業(yè)務重心的調(diào)整,1996年后,Tesseract OCR的研發(fā)工作幾乎陷入停滯。直到2005年,惠普決定將Tesseract OCR開源。

      轉(zhuǎn)折點出現(xiàn)在2006年,谷歌看中了Tesseract OCR的技術(shù)潛力,接過手來將其納入自身開源生態(tài)體系。研發(fā)團隊修復了大量歷史遺留的bug,優(yōu)化了引擎的運行速度和兼容性,更緊跟技術(shù)潮流,推動其完成了從傳統(tǒng)算法到深度學習的跨越。

      但技術(shù)世界的法則從來如此:沒有永恒的王者,只有持續(xù)迭代的創(chuàng)新

      文心大模型衍生而來的PaddleOCR,正是這場變革的引領(lǐng)者。

      PaddleOCR的登頂,并非一朝一夕之功。它誕生于2020年,是深度學習時代下原生基于深度學習技術(shù)構(gòu)建的模型。

      2023年,大模型浪潮席卷整個AI行業(yè),OCR賽道也迎來代際更替。文心大模型的持續(xù)高速迭代,直接為PaddleOCR帶來了全新的能力天花板

      PaddleOCR與文心大模型之間,逐漸玩出了一套非常有意思的雙向賦能組合拳:

      一個負責“看”:用高精度的文本提取能力,把文檔中的文字、表格、公式準確撈出來,為大模型提供“食材”。

      一個負責“懂”:文心大模型快速迭代,在多模態(tài)方向?qū)崿F(xiàn)突破,視覺理解、跨模態(tài)融合、結(jié)構(gòu)化輸出,能力版圖一步步補齊。文心不僅能消化這些信息,還能反哺PaddleOCR,讓它真正理解復雜文檔的邏輯脈絡(luò)。

      這種協(xié)同直接推動了PaddleOCR的爆發(fā)式增長。

      Star History顯示,GitHub PaddleOCR Star數(shù)自2024年起呈現(xiàn)加速增長態(tài)勢。

      基于文心大模型技術(shù)底座,PaddleOCR-VL、PaddleOCR-VL-1.5核心模型相繼推出。

      2025年10月,百度發(fā)布并開源自研多模態(tài)文檔解析模型PaddleOCR-VL



      PaddleOCR-VL僅0.9B參數(shù)量,就在全球權(quán)威文檔解析評測榜單OmniDocBench V1.5上拿下92.6分的成績,超越Gemini-2.5 Pro、GPT-4o等與其體量懸殊的多模態(tài)大模型以及OCR領(lǐng)域的垂直模型dots.ocr、MinerU等,獲得綜合性能全球第一。

      在文本識別、公式識別、表格理解、閱讀順序四大核心能力上,PaddleOCR-VL全面刷新SOTA:



      同時,發(fā)布16小時內(nèi),PaddleOCR-VL直沖HuggingFace Trending全球第一、ModelScope Trending全球第一、HuggingFace Paper Trending全球第一,持續(xù)五天登頂。



      今年一月底,百度再次發(fā)力,發(fā)布并開源新一代文檔解析模型PaddleOCR-VL-1.5

      同樣僅0.9B參數(shù),PaddleOCR-VL-1.5在OmniDocBench V1.5上的整體精度再提升,達到94.5%,超過Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等,全球綜合性能排第一。

      新一代模型更進一步實現(xiàn)了全球首次“異形框定位”

      模型能夠精準識別傾斜、彎折、拍照畸變等非規(guī)則文檔形態(tài),讓“歪文檔”實現(xiàn)穩(wěn)定、可規(guī)?;馕?。金融票據(jù)處理、檔案數(shù)字化等真實場景中的老大難問題,終于有了解決方案。

      目前,PaddleOCR用戶已覆蓋160個國家和地區(qū),支持110+種語言識別,成為真正意義上具有全球影響力的開源項目。

      5M參數(shù)模型硬剛千億模型

      這些只是水面之上的部分。讓PaddleOCR實現(xiàn)翻盤的,還有水面之下的技術(shù)突破、積淀和創(chuàng)新。

      CVPR 2026,PaddleOCR團隊有兩篇研究成果成功被收錄。

      這兩篇論文瞄準的都是OCR領(lǐng)域最前沿、最棘手的行業(yè)難題。拆開這兩篇論文,或許就能從更深層的技術(shù)視角看懂PaddleOCR到底強在哪。

      首先是PP-OCRv5這項工作。



      PP-OCRv5論文鏈接: https://arxiv.org/pdf/2603.24373v1

      PP-OCRv5提出的是一個反直覺的事:參數(shù)不一定是越大越好。

      模型參數(shù)僅5M,卻能在手寫、多語言、自然場景下表現(xiàn)超越GPT-4o等千億參數(shù)的大模型。



      怎么做到的?答案是“數(shù)據(jù)為中心”的系統(tǒng)化優(yōu)化策略

      OCR領(lǐng)域,大參數(shù)視覺語言模型占主導。但這類通用大模型普遍存在定位精度不足、文本幻覺等致命問題,而傳統(tǒng)輕量化OCR模型又過度聚焦架構(gòu)創(chuàng)新,始終被數(shù)據(jù)質(zhì)量與規(guī)模的短板限制性能。

      PP-OCRv5正是在這樣的背景下誕生的。

      百度飛槳團隊沒有盲目堆模型規(guī)模,而是提出了一套針對OCR數(shù)據(jù)的量化分析框架,從數(shù)據(jù)難度、數(shù)據(jù)準確性、數(shù)據(jù)多樣性三個維度,徹底重構(gòu)了OCR模型的數(shù)據(jù)訓練策略。

      實驗驗證了數(shù)據(jù)三維度優(yōu)化的有效性。

      關(guān)鍵是,團隊發(fā)現(xiàn)了這樣一條規(guī)律:

      模型訓練存在明確的“難度甜點區(qū)”,中等難度的數(shù)據(jù)訓練效率最高,簡單樣本和高難度樣本都需要控制比例;特征多樣性遠比盲目堆砌數(shù)據(jù)量更重要;而小模型對標簽噪聲居然有天然的強魯棒性。



      在內(nèi)部多場景基準測試中,PP-OCRv5加權(quán)準確率從PP-OCRv4的53.0%大幅提升至80.1%,在OmniDocBench上,該模型以5M參數(shù)實現(xiàn)0.067的平均歸一化編輯距離,在專用OCR模型中達到最優(yōu)水平,在多語言處理、旋轉(zhuǎn)文本、復雜背景等場景表現(xiàn)穩(wěn)健,定位精度更高、幻覺更少、計算成本遠低于百億參數(shù)視覺語言模型。

      這一切都指向一個核心結(jié)論:數(shù)據(jù)策略的上限還沒有被充分挖掘。通過精細化的“數(shù)據(jù)工程”,小模型可以在OCR場景媲美大模型。

      在PaddleOCR團隊看來,“數(shù)據(jù)本身,可能會慢慢變成?條更獨?、也更重要的能?曲線”。

      再來看另一項被接收的工作,正是PaddleOCR-VL



      PaddleOCR-VL論文鏈接: https://arxiv.org/pdf/2603.24326

      如果說PP-OCRv5解決的是“參數(shù)效率”,那PaddleOCR-VL進一步解決的是“計算困境”。

      高分辨率文檔解析一直是VLM的痛點——輸入一張高清文檔,視覺Token數(shù)量呈二次方增長,算力消耗爆炸。但文檔圖像中大量是空白背景,算力浪費嚴重。

      PaddleOCR團隊的解法很巧妙:別一開始就處理整張圖,先找到重點

      他們提出了“由粗到細”(Coarse-to-Fine)架構(gòu):先用一個輕量級的有效區(qū)域聚焦模塊(VRFM)定位文檔中的關(guān)鍵區(qū)域,再讓0.9B的模型只處理這些區(qū)域。

      結(jié)果,視覺Token數(shù)量只有競品的1/3到1/2,精度反而更高。如前所述,在OmniDocBench V1.5權(quán)威榜單上,PaddleOCR-VL以92.62分的綜合成績登頂全球第一。



      總結(jié)來看,PaddleOCR的反超是技術(shù)代際更替的必然。

      為什么AI廠商都在搶OCR?

      如果把過去半年AI圈的熱鬧拉出一條時間線,會發(fā)現(xiàn)一個清晰的現(xiàn)象:

      近半年,從巨頭到創(chuàng)業(yè)公司,國內(nèi)外OCR賽道迎來集體爆發(fā)。

      2025年10月,百度PaddleOCR-VL、DeepSeek-OCR、Allen AI olmOCR-2、Nanonets-OCR2-3B、dots.ocr.base幾乎同時發(fā)布。

      抱抱臉模型趨勢榜一度被OCR模型“屠榜”。

      到了11月,騰訊HunyuanOCR問世;12月,Mistral OCR 3發(fā)布。

      2026年1月,LightOnOCR-2、DeepSeek-OCR-2、百度PaddleOCR-VL-1.5接踵而至。

      2月,智譜GLM-OCR發(fā)布;3月,小紅書FireRed-OCR加入戰(zhàn)局。



      為什么這么卷?兩個字:數(shù)據(jù)

      互聯(lián)網(wǎng)公開的高質(zhì)量數(shù)據(jù)快被“啃”完,模型訓練面臨數(shù)據(jù)虧空。行業(yè)廣泛判斷,大量有價值信息仍沉淀在文檔、書籍、合同、表格、掃描件等離線載體中。

      OCR就是那把鑰匙。

      這些海量非結(jié)構(gòu)化信息,無法直接被大模型理解與利用,必須經(jīng)過OCR,將圖像中的文字、版面結(jié)構(gòu)、表格、公式等轉(zhuǎn)化為機器可處理的電子化文本。

      所以O(shè)CR的身份正在被重寫:

      從早期依賴手工規(guī)則的掃描小幫手,到特征工程與深度學習驅(qū)動的高精度字符識別工具,再到如今與Transformer和Agent深度融合的新階段,它早已跳出“辦公室里的文檔提取器”定位。

      現(xiàn)在,它是大模型數(shù)據(jù)生態(tài)的基座,是Agent理解真實世界的“眼睛”,是大模型變聰明的“鑰匙”



      就連啟蒙全球千萬學習者的AI大牛吳恩達,今年年初推出的新課程也是聚焦OCR。課程內(nèi)容就是關(guān)于智能體文檔提?。ˋgent Doc Extraction),也就是教你怎么給OCR裝上智能體大腦。

      當各家大模型的參數(shù)規(guī)模越來越接近,決勝的關(guān)鍵反而回到了最底層的數(shù)據(jù)獲取與處理能力。誰擁有更強的OCR能力,誰就掌握了現(xiàn)實世界的信息入口,誰就能為自己的大模型提供源源不斷的高質(zhì)量養(yǎng)料。

      PaddleOCR的登頂,正是這場角色轉(zhuǎn)換中最具標志性的事件之一。

      更值得關(guān)注的是,這場競爭才剛剛開了個頭。

      未來,OCR的比拼會越來越“鉆”??梢韵胂蟮囊环N方向是場景化,不再追求大而全,而是把金融票據(jù)、醫(yī)療檔案、教育試卷等垂直場景做深做透;另一種是端云協(xié)同,輕量模型跑在手機、掃描儀上,本地快速識別,云端精準優(yōu)化,既省算力又保隱私。

      更大的想象空間在于OCR和多模態(tài)大模型、Agent更深度地融合,我們或許能看到真正的“全能信息處理助手”。

      PaddleOCR的登頂,為中國廠商在OCR賽道拿下了領(lǐng)先身位。它背后折射出的,是中國開源整體實力和全球影響力的加速趕超。

      從底層基礎(chǔ)設(shè)施到前沿技術(shù)突破,中國開源正在越來越多的賽道上拿出世界級的表現(xiàn)。OCR,只是其中一塊拼圖。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      重慶一高校多名貧困生兼職送外賣被處分,最新進展:校方中止處分流程,未實際處罰

      重慶一高校多名貧困生兼職送外賣被處分,最新進展:校方中止處分流程,未實際處罰

      湖南法治報
      2026-03-30 14:47:57
      張雪峰去世頭七,曝電動車還停在公司樓下,與女兒珍貴合影曝光

      張雪峰去世頭七,曝電動車還停在公司樓下,與女兒珍貴合影曝光

      180視角
      2026-03-30 14:18:21
      打破歐美日壟斷,張雪機車兩天奪兩冠,直播間涌入6000多人!公司估值超10億元,創(chuàng)始人草根出身,20年前湖南衛(wèi)視紀錄片刷屏

      打破歐美日壟斷,張雪機車兩天奪兩冠,直播間涌入6000多人!公司估值超10億元,創(chuàng)始人草根出身,20年前湖南衛(wèi)視紀錄片刷屏

      每日經(jīng)濟新聞
      2026-03-30 18:16:10
      趙睿24+6+5三分爆發(fā)!北京2分險勝同曦 麥基11+9周琦10+9

      趙睿24+6+5三分爆發(fā)!北京2分險勝同曦 麥基11+9周琦10+9

      醉臥浮生
      2026-03-30 21:28:59
      冷知識:千萬不要買太大的藍莓!?。?>
    </a>
        <h3>
      <a href=果殼
      2026-03-30 16:12:50
      昔日網(wǎng)紅品牌被曝大幅關(guān)店,很多人曾排隊幾小時就為這一口!跌出頭部梯隊后“斷臂求生”

      昔日網(wǎng)紅品牌被曝大幅關(guān)店,很多人曾排隊幾小時就為這一口!跌出頭部梯隊后“斷臂求生”

      新民晚報
      2026-03-30 18:14:45
      貴州茅臺時隔近兩年半再提價,飛天茅臺自營體系零售價調(diào)整為1539元/瓶

      貴州茅臺時隔近兩年半再提價,飛天茅臺自營體系零售價調(diào)整為1539元/瓶

      界面新聞
      2026-03-30 20:29:15
      不要對發(fā)達國家生活水平有濾鏡,2026年發(fā)達國家老百姓實際生活水平比中國已經(jīng)高不了多少

      不要對發(fā)達國家生活水平有濾鏡,2026年發(fā)達國家老百姓實際生活水平比中國已經(jīng)高不了多少

      寧南山
      2026-03-30 08:37:47
      “不要國王!”遭遇“全球羞辱時刻”,“不滿意率”創(chuàng)新高,特朗普仍在“嘴硬”……

      “不要國王!”遭遇“全球羞辱時刻”,“不滿意率”創(chuàng)新高,特朗普仍在“嘴硬”……

      新民周刊
      2026-03-30 15:36:19
      哈佛大學研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風險

      哈佛大學研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風險

      黯泉
      2026-03-29 12:00:55
      王石被限制出境

      王石被限制出境

      料道new
      2026-03-30 16:29:44
      伊朗:美軍撤離伊邊境鄰近地區(qū),美多架預警機和加油機被擊落,多處倉庫被摧毀,未來更多高價值目標將被列入打擊名單

      伊朗:美軍撤離伊邊境鄰近地區(qū),美多架預警機和加油機被擊落,多處倉庫被摧毀,未來更多高價值目標將被列入打擊名單

      魯中晨報
      2026-03-30 07:09:20
      米萊高調(diào)宣布:我將阿根廷的貧困率降低了27%,全靠尊重產(chǎn)權(quán)和市場經(jīng)濟

      米萊高調(diào)宣布:我將阿根廷的貧困率降低了27%,全靠尊重產(chǎn)權(quán)和市場經(jīng)濟

      風向觀察
      2026-03-30 14:33:04
      浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結(jié)束了生命

      浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結(jié)束了生命

      魔都姐姐雜談
      2026-03-30 19:25:57
      鄭麗文受邀訪問大陸 我們應該怎么看?

      鄭麗文受邀訪問大陸 我們應該怎么看?

      看看新聞Knews
      2026-03-30 22:31:04
      成立僅兩年!張雪機車憑啥簽下世界冠軍車手?背后布局太狠了

      成立僅兩年!張雪機車憑啥簽下世界冠軍車手?背后布局太狠了

      行者聊官
      2026-03-30 12:26:28
      盤點:戰(zhàn)爭滿30日,伊朗被斬首高官全名單!下一個會是誰?

      盤點:戰(zhàn)爭滿30日,伊朗被斬首高官全名單!下一個會是誰?

      大江看潮
      2026-03-30 10:03:00
      周杰倫新專輯封面被嘲 “老登味” 網(wǎng)友:現(xiàn)在是他個人的審美

      周杰倫新專輯封面被嘲 “老登味” 網(wǎng)友:現(xiàn)在是他個人的審美

      小蘿卜絲
      2026-03-30 09:33:58
      張雪機車WSBK奪冠后咨詢量大增,直播間涌入6000多人,線下門店稱目前820RR暫未開放試駕,多款周邊限定商品已售罄

      張雪機車WSBK奪冠后咨詢量大增,直播間涌入6000多人,線下門店稱目前820RR暫未開放試駕,多款周邊限定商品已售罄

      極目新聞
      2026-03-30 13:26:30
      張雪峰辦公室 “詭異” 一角引熱議!黑白照 + 香爐 網(wǎng)友:不吉利

      張雪峰辦公室 “詭異” 一角引熱議!黑白照 + 香爐 網(wǎng)友:不吉利

      魔都姐姐雜談
      2026-03-30 19:57:02
      2026-03-31 00:08:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12376文章數(shù) 176430關(guān)注度
      往期回顧 全部

      科技要聞

      一句謊言引發(fā)的硅谷血案

      頭條要聞

      媒體:鄭麗文受邀訪大陸核心原因 從當前局勢看不難猜

      頭條要聞

      媒體:鄭麗文受邀訪大陸核心原因 從當前局勢看不難猜

      體育要聞

      想進世界杯,意大利還要過他這一關(guān)

      娛樂要聞

      全紅嬋聊到體重哭了,每天只吃一頓飯

      財經(jīng)要聞

      本輪地緣沖突,A股憑什么走出獨立行情

      汽車要聞

      限時12.58萬起 銀河星耀8遠航家系列上市

      態(tài)度原創(chuàng)

      手機
      本地
      時尚
      藝術(shù)
      公開課

      手機要聞

      蘋果京東旗艦店將于4月1日開啟“Apple 50周年慶”直播活動

      本地新聞

      用Color Walk的方式解鎖城市春日

      “小白鞋”今年春夏又火了!這5雙怎么搭都好看

      藝術(shù)要聞

      600 年前的「產(chǎn)亡孤魂」,藏著中國女性最痛的記憶

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版