<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      只有0.9B的PaddleOCR-VL,卻是現(xiàn)在最強的OCR模型。

      0
      分享至

      這幾天,OCR這個詞,絕對是整個AI圈最火的詞。

      因為DeepSeek-OCR,甚至讓OCR這個賽道文藝復(fù)興,又給直接帶火了。


      整個Hugging Face的趨勢版里,前4有3個OCR,甚至Qwen3-VL-8B也能干OCR的活,說一句全員OCR真的不過分。

      然后在我上一篇講DeepSeek-OCR文章的評論區(qū)里,有很多朋友都在把DeepSeek-OCR跟 PaddleOCR-VL做對比, 也有很多人都在問,能不能再解讀一下百度那個OCR模型(也就是 PaddleOCR-VL) 。



      所以我也覺得,不如就來寫一篇關(guān)于 PaddleOCR-VL的內(nèi)容吧。

      非常坦誠的講,百度家的東西,我寫的一直都會非常謹(jǐn)慎。

      但是這個PaddleOCR-VL,是我真的覺得值得一寫的。

      因為,確實很牛逼。


      首先提一下,PaddleOCR這個項目本身,不是啥新東西,這是百度一直都在做的項目,很多年了,最早期甚至可以追溯到2020年,也是一直是開源的姿態(tài)。


      后來他們就不斷的迭代,整整5年時間,成了整個OCR領(lǐng)域最火的開源,現(xiàn)在也應(yīng)該是現(xiàn)在Github上Star最高的OCR項目,有60K,基本屬于斷檔領(lǐng)先。


      而 PaddleOCR-VL模型,就是他們 前幾天開源了他們的PaddleOCR系列里最新的模型,這也是第一次,把大模型用在了整個OCR文檔解析的最核心的位置。


      整個模型只有0.9B,但是幾乎在OCR的評測集叫OmniDocBench v1.5的所有子項,都做到了SOTA。


      左邊有三個類型,分別是傳統(tǒng)的多階段流水線系統(tǒng)、通用多模態(tài)大模型、專門為文檔解析訓(xùn)練的視覺語言模型。

      PaddleOCR-VL參數(shù)最小,效果最好,然后因為發(fā)的剛好早了三四天,所以表里沒有DeepSeek-OCR的跑分,但是 OmniDocBench v1.5 的最新跑分昨天也出爐了, DeepSeek-OCR 綜合跑分是86.46,比 PaddleOCR-VL的92.56還是低了大概6分,不過也能理解。


      PaddleOCR-VL 確實足夠的猛,在垂直模型領(lǐng)域,把性價比做到了極致。

      你可能會有一點點好奇,為啥一個0.9B的模型,能比其他的大模型都要強。

      除了確實專精這個領(lǐng)域之外,還有個非常有趣的架構(gòu),是我覺得單獨可以說一下的。

      也是長上下文和避免幻覺的一種非常有趣的解法。


      很多的多模態(tài)大模型,是端到端的,他們干OCR的方式其實是非常低效的。

      就是你把一整張A4紙扔給它,它需要一口氣把這張圖上所有的文字、表格、公式、圖片、排版等等全都看懂,然后再一口氣生成一個完美的Markdown,這個難度,其實也挺地獄級的。

      畢竟模型需要同時理解:“哦,這塊是個表,它在頁面的左上角,這個表有3行5列,哦表頭是這個,哦內(nèi)容是那個,它旁邊的這段文字是在解釋這個表……哦哎臥槽我第一個事是要干啥來著。。?!?

      PaddleOCR-VL的做法就挺高效好玩的,它的架構(gòu),就兩步:

      第一步,先讓專干布局分析的傳統(tǒng)視覺模型上。這個玩意叫PP-DocLayoutV2,它干的活兒特純粹,就是“框”。

      它以極快的速度掃一眼整張圖,然后把一些區(qū)域都框起來,然后告訴你:“報告老板,這里是標(biāo)題,那里是正文,這塊是個表,那塊是公式?!?而且每個框的閱讀順序,也都是符合人類的閱讀順序的。

      這個活兒,在CV領(lǐng)域已經(jīng)很成熟了,根本不需要一個大模型來搞。


      第二步,就是主力登場。這個主力,就是最核心的這個0.9B的PaddleOCR-VL模型。

      它現(xiàn)在接到的任務(wù),根本不是去看那張復(fù)雜的A4紙。它接到的是一堆被PP-DocLayoutV2裁好的小圖片。

      一個任務(wù)是:“這是一張200x500的小圖,我(PP-DocLayoutV2)已經(jīng)告訴你這是個表了,你(PaddleOCR-VL)給我把它轉(zhuǎn)成Markdown?!?

      下一個任務(wù)是:“這是一張50x50的小圖,我知道這是個公式,你給我轉(zhuǎn)成LaTeX?!?/p>

      然后循環(huán)往復(fù),最后,又準(zhǔn)又快。

      所以這種做法,根本不需要復(fù)雜的幾百B的大模型,直接上0.9B的模型,卻能達到最完美的效果。

      我之所以把這個點單獨拿出來說,也是想表達我的一個觀點:

      在普通用戶眼里,其實很多時候技術(shù)根本沒有優(yōu)劣,能解決用戶的問題,就是最牛逼的技術(shù)。黑貓白貓,能抓到耗子的,就是好貓。

      至少我認(rèn)為,PaddleOCR-VL的做法,就非常的巧勁。

      我也專門找了幾類特別有代表性,處理起來比較頭疼的圖片來給大家看一下實測的效果。

      首先肯定是掃描PDF,這種應(yīng)該是重中之重,比如下面這張非常糊的掃描件截圖,肉眼看起來也會有點吃力。


      糊不拉幾的,我眼睛看著都疼。

      而把這個扔給PaddleOCR-VL,它處理起來很順利,先是把需要識別的地方框了出來,并打上了閱讀循序的序號。


      然后是第二步,分塊識別出結(jié)果,效果很不錯,公式也識別出來了。


      我詳細核對了2、3遍,發(fā)現(xiàn)確實一個字都沒錯。

      最后的那個+號后面之所以沒東西了,是因為我截圖的時候,不小心讓搜狗輸入法的圖標(biāo)給擋住了。。。

      我又找了一些手寫筆記的照片去試,這玩意絕對是OCR領(lǐng)域的硬骨頭。

      不管是中文還是英文,只要字跡別太潦草到像天書一樣,PaddleOCR-VL給出的識別結(jié)果準(zhǔn)確率都還挺在線的。

      對比很多工具碰到手寫基本就歇菜的情況,這個已經(jīng)很能打了。


      當(dāng)然,前提是你的手寫字得大致能看懂,如果是醫(yī)生的那種字,我覺得神仙來了都沒用。。。

      然后是論文這種排版密集的。報紙那小字、多分欄、緊湊的布局,對布局分析和識別都是不小的挑戰(zhàn)。

      實測下來,PaddleOCR-VL對多欄的處理還比較穩(wěn)定,閱讀順序也能捋順,文字識別本身也沒啥毛病,基本全對,總體效果挺好。


      因為支持端到端的解析,所以能給你把一些圖表啥的都給你還原回來。


      這個點非常的牛逼。

      還有就是票據(jù),像發(fā)票收據(jù)這些。格式雖然相對固定,但里面混著機打字、數(shù)字、手寫補充、甚至蓋章,挺復(fù)雜的。

      PaddleOCR-VL在處理這類半結(jié)構(gòu)化文檔、抓取關(guān)鍵信息時表現(xiàn)還行,我自己跑了很多次,不能說百分百沒差錯,但在同類模型里,已經(jīng)算非??孔V的了。


      感覺這個已經(jīng)完全可以替換我們現(xiàn)在多維表格上用的視覺大模型,接入到我們公司財務(wù)的多維表格系統(tǒng)里面了。。。

      準(zhǔn)確性強很多,真的能節(jié)省財務(wù)的不少時間。

      還有那種大型表格,這就是重頭戲了。

      不管是論文里那種帶合并單元格的復(fù)雜表,還是財報里密密麻麻的數(shù)字表,甚至是沒啥框線的表,PaddleOCR-VL的表格結(jié)構(gòu)識別能力是有一點讓我驚訝的,不光能認(rèn)出格子里面的字,還能把表格的行列關(guān)系比較好地還原出來,這對我們的一些自動化信息提取非常有幫助。

      比如就是上文里面的那個跑分圖。

      識別提取出來之后,沒有一丁點問題,這個是有點離譜的。


      總的來說,這些實測跑下來,PaddleOCR-VL在處理這些復(fù)雜和刁鉆的場景時,表現(xiàn)確實可圈可點。

      而且實測確實會比DeepSeek-OCR準(zhǔn)確更高,DeepSeek-OCR提取的時候總是會錯一兩個字,PaddleOCR-VL是一字不錯,當(dāng)然你不能把DeepSeek-OCR純看成是一個純OCR模型,畢竟意義還是不太一樣。

      我們自己其實有很多飛書多維表格的信息提取工作流,也已經(jīng)在考慮換成PaddleOCR-VL了。

      比如我們經(jīng)常需要,批量上傳一些各個平臺的數(shù)據(jù)截圖,然后提取里面的一些結(jié)構(gòu)化信息。


      現(xiàn)在都是接了一些比較大的多模態(tài)大模型來做提取的,有一說一,從價格上來說,會比PaddleOCR-VL這種貴很多,而且有時候還會出錯。

      感覺把PaddleOCR-VL接進去,會是目前的最優(yōu)解。

      目前PaddleOCR-VL已經(jīng)開源,網(wǎng)址在此:

      https://github.com/PaddlePaddle/PaddleOCR

      我本來想跟DeepSeek-OCR一樣,給大家手搓一個Windows的本地整合包,讓大家能開箱即用,結(jié)果因為不同于一些常規(guī)的大模型,折騰了一夜,干到凌晨4點多,兩眼發(fā)黑,還是沒做出來,這個只能說對不起大家,還是有點太菜了= =

      所以現(xiàn)階段,大家如果有自己部署能力的,可以自己根據(jù)PaddleOCR Github上的部署教程來部署到本地。

      只是想用一下的,不想折騰部署的,可以去各大demo平臺上用官方自己部署的體驗版本。

      飛槳:https://aistudio.baidu.com/application/detail/98365

      魔搭:https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL_Online_Demo

      Hugging Face:https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo

      最后,還是想多說幾句。

      DeepSeek-OCR探索的上下文光學(xué)壓縮確實非常新,也打開了大家對人類視覺感知的一些新的想象。

      百度的PaddleOCR-VL,更是從實際出發(fā),在一個細分領(lǐng)域達到了SOTA,成為了這個領(lǐng)域效果最好的模型。

      高效、準(zhǔn)確,也能實實在在地提升我們處理文檔信息的效率。

      兩者都是非常優(yōu)秀的工作,沒有誰比誰強。

      都是在自己領(lǐng)域。

      最亮眼的仔。

      以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標(biāo)?~謝謝你看我的文章,我們,下次再見。

      >/ 作者:卡茲克

      >/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      噴垃圾話+跳舞慶祝,杜蘭特打嗨了!轟31分6板5助讓三人認(rèn)清現(xiàn)實

      噴垃圾話+跳舞慶祝,杜蘭特打嗨了!轟31分6板5助讓三人認(rèn)清現(xiàn)實

      鍋子籃球
      2025-12-21 12:19:16
      火力全開擊潰世界第二!石宇奇2-0昆拉武特,劍指賽季單打第六冠

      火力全開擊潰世界第二!石宇奇2-0昆拉武特,劍指賽季單打第六冠

      釘釘陌上花開
      2025-12-20 20:43:24
      李小璐寫真生圖高清

      李小璐寫真生圖高清

      翩翩明星
      2025-11-14 09:39:36
      最后一周,歐洲承諾出兵烏克蘭,特朗普定調(diào),俄軍3年白打了?

      最后一周,歐洲承諾出兵烏克蘭,特朗普定調(diào),俄軍3年白打了?

      非凡觀點
      2025-12-20 10:43:43
      盧偉冰曬小米17 Ultra煙花樣張:最強夜神實至名歸

      盧偉冰曬小米17 Ultra煙花樣張:最強夜神實至名歸

      快科技
      2025-12-21 00:02:06
      特朗普親自出手要人,喊話釋放黎智英,中方用了六個字回應(yīng)

      特朗普親自出手要人,喊話釋放黎智英,中方用了六個字回應(yīng)

      兵說
      2025-12-20 10:29:21
      一天7場!張水華連續(xù)周日上班均未參賽 最近僅3小時車程 無緣8千

      一天7場!張水華連續(xù)周日上班均未參賽 最近僅3小時車程 無緣8千

      念洲
      2025-12-21 09:19:27
      60歲郭富城現(xiàn)身香港街頭,他現(xiàn)實中外形很一般,個子很矮。

      60歲郭富城現(xiàn)身香港街頭,他現(xiàn)實中外形很一般,個子很矮。

      TVB的四小花
      2025-12-21 02:40:29
      羅永浩又開炮!開通1000兆寬帶下載只有90多兆,上海電信壓力來了

      羅永浩又開炮!開通1000兆寬帶下載只有90多兆,上海電信壓力來了

      火山詩話
      2025-12-19 06:40:20
      西甲最新積分戰(zhàn)報:前2只差1分,皇馬連勝,萊萬特補時絕平

      西甲最新積分戰(zhàn)報:前2只差1分,皇馬連勝,萊萬特補時絕平

      足球狗說
      2025-12-21 06:56:42
      120多萬的卡宴只要60多萬?很多網(wǎng)友激動了!打飛的到海南買進口車,可行嗎?

      120多萬的卡宴只要60多萬?很多網(wǎng)友激動了!打飛的到海南買進口車,可行嗎?

      都市快報橙柿互動
      2025-12-19 18:00:00
      泰軍宣布重創(chuàng)柬埔寨!繳獲大批中國造導(dǎo)彈!打到洪森父子投降?

      泰軍宣布重創(chuàng)柬埔寨!繳獲大批中國造導(dǎo)彈!打到洪森父子投降?

      深度報
      2025-12-17 23:06:04
      波蘭總統(tǒng)當(dāng)面向澤連斯基“發(fā)難”:烏克蘭人不知感激

      波蘭總統(tǒng)當(dāng)面向澤連斯基“發(fā)難”:烏克蘭人不知感激

      參考消息
      2025-12-20 21:25:31
      普京參觀圖-160制造廠,亮家底:確實夠中國至少追趕二十年

      普京參觀圖-160制造廠,亮家底:確實夠中國至少追趕二十年

      我心縱橫天地間
      2025-12-20 21:21:26
      普京拒付金正恩派兵報酬,因朝鮮軍隊?wèi)?zhàn)績不佳,僅支付20%報酬

      普京拒付金正恩派兵報酬,因朝鮮軍隊?wèi)?zhàn)績不佳,僅支付20%報酬

      環(huán)球熱點快評
      2025-12-17 09:19:03
      《阿凡達3》首映遭遇放映“滑鐵盧”:版本多,分辨率高,幀率翻倍,不少影院放映系統(tǒng)不堪重負

      《阿凡達3》首映遭遇放映“滑鐵盧”:版本多,分辨率高,幀率翻倍,不少影院放映系統(tǒng)不堪重負

      揚子晚報
      2025-12-20 13:24:32
      毛主席的表哥文運昌,赴京期間飲酒無度,被毛主席責(zé)令返鄉(xiāng),直至離世前,心中仍對此事耿耿于懷未能放下

      毛主席的表哥文運昌,赴京期間飲酒無度,被毛主席責(zé)令返鄉(xiāng),直至離世前,心中仍對此事耿耿于懷未能放下

      桃煙讀史
      2025-12-20 18:19:16
      美術(shù)學(xué)院館長調(diào)包143件文物,價值上億!死后幾年還在被追贓

      美術(shù)學(xué)院館長調(diào)包143件文物,價值上億!死后幾年還在被追贓

      收藏大視界
      2025-12-20 21:49:12
      火箭115-101掘金!贏球不是關(guān)鍵,而是申京和杜蘭特做出兩大改變

      火箭115-101掘金!贏球不是關(guān)鍵,而是申京和杜蘭特做出兩大改變

      魚崖大話籃球
      2025-12-21 11:16:28
      朝鮮最高領(lǐng)導(dǎo)人金正恩:音響一定要最響的

      朝鮮最高領(lǐng)導(dǎo)人金正恩:音響一定要最響的

      微微熱評
      2025-12-21 00:17:11
      2025-12-21 12:32:49
      數(shù)字生命卡茲克 incentive-icons
      數(shù)字生命卡茲克
      反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
      424文章數(shù) 489關(guān)注度
      往期回顧 全部

      科技要聞

      生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個應(yīng)用

      頭條要聞

      山西宣布廢除煙花爆竹"禁放令" 網(wǎng)友:年味回來了

      頭條要聞

      山西宣布廢除煙花爆竹"禁放令" 網(wǎng)友:年味回來了

      體育要聞

      送快船西部墊底!鵜鶘大勝步行者獲4連勝

      娛樂要聞

      鹿晗關(guān)曉彤戀愛期間毫不避諱?

      財經(jīng)要聞

      百年老店陷貼牌爭議 同仁堂必須作出取舍

      汽車要聞

      -30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

      態(tài)度原創(chuàng)

      家居
      時尚
      游戲
      本地
      手機

      家居要聞

      高端私宅 理想隱居圣地

      中年女人,冬天這么穿羽絨服、大衣,優(yōu)雅都藏在這3個細節(jié)里

      魔獸世界:安其拉神殿最讓人無法抗拒的武器,哪款能讓你逆襲?

      本地新聞

      云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

      手機要聞

      華為Nova15系列全解析:機身重量、電池容量、核心配置,均清晰!

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 好吊视频一区二区三区| 日本中文字幕乱码免费| 亚洲无码人妻| 国内自拍av| www夜片内射视频日韩精品成人| 久无码久无码av无码| 永久免费无码av在线网站| 一区777| 航空| 欧美成a人片在线观看久| 五月av综合av国产av | 国产成人精品a视频一区| 久久精品国产只有精品96| 久久这里只精品热免费99| 黄色视频在线观看18| 中国老妇xxxx性开放| 国精产品一区一区三区有限公司| 99在线视频免费观看| 91在现观看| AV色色色| 久久久久久国产精品美女| 一面膜上边一面膜下边视频| 91免费视频网| 国产国语老龄妇女a片| 影音先锋大型av资源| 五月婷婷中文字幕| 成人国产综合| 成人另类小说| 国产精品18久久久| 亚洲人妻一区二区精品| 自拍偷拍国产| 无码人妻一区二区三区av| 国产特级毛片aaaaaa| 超碰人人插| 新巴尔虎左旗| 亚洲无av在线中文字幕| 亚洲九九九| 欧美午夜福利| 国产人妻无套一区二区普通话对白| 欧美性猛交xxxx乱大交丰满| 孕交videos小孕妇xx|