<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      阿里巴巴團(tuán)隊(duì)開(kāi)源,OCR 又來(lái)一個(gè)高手,第一!

      0
      分享至

      大家好,我是Ai學(xué)習(xí)的老章

      OCR 我寫(xiě)過(guò)太多了,每隔一段時(shí)間就有新模型出來(lái):

      今天這位選手是阿里巴巴團(tuán)隊(duì)開(kāi)源的Logics-Parsing-v2,在兩個(gè)主流 Benchmark 上直接拿了第一:自家的 LogicsDocBench 拿了82.16 分,公開(kāi)的 OmniDocBench-v1.5 拿了93.23 分,都是目前最高分。


      https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary?spm=label.24dbbd5e.0.0.34862eb7aIqtVk 這模型有啥不一樣?

      市面上 OCR 模型一大把,Logics-Parsing-v2 憑啥能打?核心就兩個(gè)字:全能。

      傳統(tǒng) OCR 做的事情比較窄——識(shí)別文字、提取表格、處理公式。但實(shí)際文檔遠(yuǎn)比這復(fù)雜:報(bào)紙那種多欄排版、跨頁(yè)表格、豎排文字、手寫(xiě)內(nèi)容……這些"臟活累活",大部分模型處理得都不太行。

      Logics-Parsing-v2 在 v1 的基礎(chǔ)上,除了把這些傳統(tǒng)任務(wù)做得更好之外,還加了一個(gè)全新的能力維度,叫Parsing-2.0——支持解析以下內(nèi)容:

      • 流程圖 / 思維導(dǎo)圖→ 輸出 Mermaid 格式

      • 樂(lè)譜→ 輸出 ABC 記譜法

      • 代碼塊 / 偽代碼→ 結(jié)構(gòu)化提取

      • 化學(xué)分子式→ SMILES 格式

      你沒(méi)看錯(cuò),它能看懂樂(lè)譜。這在 OCR 領(lǐng)域算是相當(dāng)炸裂的能力了。


      Logics-Parsing-v2 能力概覽——從傳統(tǒng)文檔到流程圖、樂(lè)譜、代碼全覆蓋 Benchmark 成績(jī)單

      先看自家的LogicsDocBench,這是阿里專門建的評(píng)測(cè)集,900 頁(yè) PDF,覆蓋三大場(chǎng)景:

      場(chǎng)景

      頁(yè)數(shù)

      包含內(nèi)容

      STEM 文檔

      218 頁(yè)

      物理、數(shù)學(xué)、工程等十多個(gè)學(xué)科

      復(fù)雜排版

      459 頁(yè)

      多欄、跨頁(yè)表格、豎排、圖文混排

      Parsing-2.0

      223 頁(yè)

      化學(xué)式、樂(lè)譜、代碼塊、流程圖

      在這個(gè) Benchmark 上,Logics-Parsing-v2 以82.16 分的總分排名第一,遠(yuǎn)超其他選手。


      LogicsDocBench 評(píng)測(cè)結(jié)果——Logics-Parsing-v2 全面領(lǐng)先

      再看公開(kāi)的OmniDocBench-v1.5,這個(gè)是業(yè)界公認(rèn)的文檔解析評(píng)測(cè)標(biāo)準(zhǔn)。Logics-Parsing-v2 拿了93.23 分,同樣是最高分——比 Gemini 2.5 Pro、GPT-5、豆包 1.6 這些閉源大模型都高。


      OmniDocBench-v1.5 評(píng)測(cè)結(jié)果——開(kāi)源模型首次登頂

      說(shuō)實(shí)話,開(kāi)源 OCR 模型在 OmniDocBench 上打贏閉源大模型,這還是頭一次。之前我測(cè)過(guò)不少 OCR 模型,閉源的 Mathpix、doc2x 一直是天花板,現(xiàn)在這個(gè)天花板被捅穿了。

      跟其他模型比怎么樣?

      在阿里自建的 Benchmark 上(v1 評(píng)測(cè),數(shù)值越低越好,TEDS 越高越好):

      幾個(gè)值得關(guān)注的對(duì)比:

      • vs Gemini 2.5 Pro:Logics-Parsing 在英文文本(0.089 vs 0.115)、表格(0.165 vs 0.154 接近)上都有競(jìng)爭(zhēng)力

      • vs Mathpix:公式識(shí)別 Mathpix 還是很強(qiáng)(0.06 vs 0.106),但綜合能力 Logics-Parsing 更好

      • vs MonkeyOCR / GOT-OCR:全面領(lǐng)先,不在一個(gè)檔次

      • vs 通用大模型(GPT-5、Qwen2.5VL-72B):專用模型優(yōu)勢(shì)明顯

      一個(gè)模型,端到端推理,不需要復(fù)雜的 pipeline,直接圖片進(jìn)、HTML 出。這個(gè)思路比傳統(tǒng)的"檢測(cè)+識(shí)別+后處理"流水線簡(jiǎn)潔太多了。

      輸出格式很講究

      Logics-Parsing-v2 輸出的不是純文本,而是結(jié)構(gòu)化 HTML。

      每個(gè)內(nèi)容塊都帶有:

      • 類別標(biāo)簽:段落、表格、圖片、公式等

      • 邊界框坐標(biāo):精確到像素級(jí)的位置信息

      • OCR 文本:識(shí)別出的內(nèi)容

      對(duì)于 Parsing-2.0 的新場(chǎng)景,輸出格式也做了定制:

      • 流程圖 →Mermaid語(yǔ)法(可以直接渲染)

      • 樂(lè)譜 →ABC 記譜法(音樂(lè)人看得懂)

      • 化學(xué)式 →SMILES格式(化學(xué)標(biāo)準(zhǔn)表示)

      這意味著你拿到輸出之后,不需要再做什么后處理,直接就能用。

      怎么跑?

      部署很簡(jiǎn)單:

      conda create -n logics-parsing-v2 python=3.10
      conda activate logics-parsing-v2
      pip install -r requirements.txt

      下載模型(HuggingFace 或 ModelScope 二選一):

      # HuggingFace
      pip install huggingface_hub
      python download_model_v2.py -t huggingface


      # ModelScope(國(guó)內(nèi)更快)
      pip install modelscope
      python download_model_v2.py -t modelscope

      推理一行搞定:

      python3 inference_v2.py --image_path 你的圖片路徑 --output_path 輸出目錄 --model_path 模型路徑

      基于 Qwen3-VL 架構(gòu),對(duì) GPU 有一定要求,但不算離譜。

      實(shí)際效果展示

      說(shuō)了這么多數(shù)據(jù),看幾個(gè)實(shí)際效果:

      扭曲文檔識(shí)別——拍照角度歪斜、紙張彎曲,照樣準(zhǔn)確識(shí)別:


      扭曲文檔識(shí)別效果

      STEM 文檔——復(fù)雜的數(shù)學(xué)公式、物理圖表,結(jié)構(gòu)完整保留:


      STEM 文檔解析效果

      代碼塊識(shí)別——不只是識(shí)別文字,還能保留代碼結(jié)構(gòu):


      代碼塊識(shí)別效果

      流程圖解析——識(shí)別流程圖并轉(zhuǎn)成 Mermaid 代碼,可以直接渲染:


      流程圖解析效果

      樂(lè)譜識(shí)別——這個(gè)真的是第一次在 OCR 模型里見(jiàn)到:


      樂(lè)譜識(shí)別效果 總結(jié)

      Logics-Parsing-v2 給我的感覺(jué)就是:OCR 這個(gè)賽道,終于有一個(gè)模型把"全能"兩個(gè)字做到位了。

      • 雙 Benchmark 第一:LogicsDocBench 82.16,OmniDocBench-v1.5 93.23

      • Parsing-2.0:流程圖、樂(lè)譜、代碼、化學(xué)式,傳統(tǒng) OCR 碰都不碰的東西它全能解

      • 端到端單模型:不需要復(fù)雜 pipeline,圖片進(jìn) HTML 出

      • 開(kāi)源免費(fèi):代碼和模型全部開(kāi)放

      如果你在做文檔數(shù)字化、論文解析、知識(shí)庫(kù)構(gòu)建這類工作,這個(gè)模型真的值得試試。

      • GitHub:https://github.com/alibaba/Logics-Parsing

      • HuggingFace 模型:https://huggingface.co/Logics-MLLM/Logics-Parsing-v2

      • 在線 Demo:https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary

      制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      國(guó)運(yùn)來(lái)了擋不住!我國(guó)發(fā)現(xiàn)世界最大"超巨型金礦床"、價(jià)值6000億

      國(guó)運(yùn)來(lái)了擋不住!我國(guó)發(fā)現(xiàn)世界最大"超巨型金礦床"、價(jià)值6000億

      愛(ài)競(jìng)彩的小周
      2026-04-02 12:32:25
      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      張嘴說(shuō)財(cái)經(jīng)
      2026-04-01 22:24:17
      太突然!他倆宣布離婚

      太突然!他倆宣布離婚

      廣州生活美食圈
      2026-04-01 19:01:31
      今麥郎董事長(zhǎng)回應(yīng)“手打掛面的‘手打’是商標(biāo)”:該商標(biāo)已用了20年,4月2日凌晨起停產(chǎn)相關(guān)產(chǎn)品

      今麥郎董事長(zhǎng)回應(yīng)“手打掛面的‘手打’是商標(biāo)”:該商標(biāo)已用了20年,4月2日凌晨起停產(chǎn)相關(guān)產(chǎn)品

      封面新聞
      2026-04-02 05:07:12
      中方奉陪到底!沒(méi)等來(lái)日本道歉,高市卻掀桌了,突然亮出獠牙!

      中方奉陪到底!沒(méi)等來(lái)日本道歉,高市卻掀桌了,突然亮出獠牙!

      娛樂(lè)的宅急便
      2026-04-01 14:42:42
      福建福州振興鄉(xiāng)村集團(tuán)有限公司董事長(zhǎng)陳志武接受審查調(diào)查

      福建福州振興鄉(xiāng)村集團(tuán)有限公司董事長(zhǎng)陳志武接受審查調(diào)查

      界面新聞
      2026-04-02 08:36:22
      66歲陳永貴,退休后對(duì)秘書(shū)發(fā)脾氣,李先念下令:不許再給他送文件

      66歲陳永貴,退休后對(duì)秘書(shū)發(fā)脾氣,李先念下令:不許再給他送文件

      簡(jiǎn)史檔案館
      2026-04-02 11:05:03
      特朗普剛表態(tài)認(rèn)輸,不到24小時(shí),美債遭遇大規(guī)模拋售,美國(guó)失算了

      特朗普剛表態(tài)認(rèn)輸,不到24小時(shí),美債遭遇大規(guī)模拋售,美國(guó)失算了

      深析古今
      2026-04-01 21:52:44
      金價(jià)徹底爆了!

      金價(jià)徹底爆了!

      新浪財(cái)經(jīng)
      2026-04-02 10:04:40
      現(xiàn)在教育最大的問(wèn)題是:大多數(shù)學(xué)生根本就不想學(xué)習(xí)。

      現(xiàn)在教育最大的問(wèn)題是:大多數(shù)學(xué)生根本就不想學(xué)習(xí)。

      李老師講最真教育
      2026-04-01 22:07:16
      山西柳林一飯店發(fā)現(xiàn)3人死亡 疑似煤氣中毒

      山西柳林一飯店發(fā)現(xiàn)3人死亡 疑似煤氣中毒

      新京報(bào)
      2026-04-02 12:21:11
      李榮浩抄襲案逆轉(zhuǎn)? 網(wǎng)揪「時(shí)間軸證據(jù)」質(zhì)疑說(shuō)謊:版權(quán)公司根本沒(méi)倒

      李榮浩抄襲案逆轉(zhuǎn)? 網(wǎng)揪「時(shí)間軸證據(jù)」質(zhì)疑說(shuō)謊:版權(quán)公司根本沒(méi)倒

      ETtoday星光云
      2026-04-02 16:50:10
      女生主動(dòng)起來(lái)有多黏人?網(wǎng)友:這些女的太開(kāi)放了

      女生主動(dòng)起來(lái)有多黏人?網(wǎng)友:這些女的太開(kāi)放了

      帶你感受人間冷暖
      2026-01-27 00:20:06
      鄭麗文強(qiáng)援已到!美國(guó)竄訪團(tuán)抵臺(tái)當(dāng)天,北京出手,大陸來(lái)?yè)窝?>
    </a>
        <h3>
      <a href=混沌錄
      2026-04-01 20:37:15
      不能錯(cuò)過(guò)!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      不能錯(cuò)過(guò)!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-04-02 13:52:19
      社交潛規(guī)則:沒(méi)有人有義務(wù)透過(guò)你邋遢的外表,去發(fā)現(xiàn)你優(yōu)秀的內(nèi)在

      社交潛規(guī)則:沒(méi)有人有義務(wù)透過(guò)你邋遢的外表,去發(fā)現(xiàn)你優(yōu)秀的內(nèi)在

      清風(fēng)拂心
      2026-03-18 10:08:19
      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術(shù)曾做史泰龍保鏢

      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術(shù)曾做史泰龍保鏢

      大象新聞
      2026-03-31 14:49:05
      天氣轉(zhuǎn)暖,醫(yī)生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      天氣轉(zhuǎn)暖,醫(yī)生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      岐黃傳人孫大夫
      2026-03-30 23:30:03
      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      可樂(lè)談情感
      2026-03-29 15:16:24
      晚飯七分飽被推翻了?醫(yī)生調(diào)查:過(guò)了56歲,吃飯盡量要做到這5點(diǎn)

      晚飯七分飽被推翻了?醫(yī)生調(diào)查:過(guò)了56歲,吃飯盡量要做到這5點(diǎn)

      蜉蝣說(shuō)
      2026-02-03 15:00:19
      2026-04-02 17:28:49
      Ai學(xué)習(xí)的老章 incentive-icons
      Ai學(xué)習(xí)的老章
      Ai學(xué)習(xí)的老章
      3302文章數(shù) 11122關(guān)注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      外媒稱伊朗已向中國(guó)尋求安全保障 外交部回應(yīng)

      頭條要聞

      外媒稱伊朗已向中國(guó)尋求安全保障 外交部回應(yīng)

      體育要聞

      這六個(gè)字,代表了邵佳一的新國(guó)足

      娛樂(lè)要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財(cái)經(jīng)要聞

      電商售械三水光針 機(jī)構(gòu)倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬(wàn)公里的蔚來(lái)ES6 拆開(kāi)看

      態(tài)度原創(chuàng)

      教育
      數(shù)碼
      親子
      本地
      公開(kāi)課

      教育要聞

      天府新區(qū)調(diào)整劃片后,利好不止這個(gè)片區(qū)

      數(shù)碼要聞

      中國(guó)芯片廠商占領(lǐng)本土近半市場(chǎng) NVIDIA領(lǐng)先優(yōu)勢(shì)大幅縮減

      親子要聞

      輔酶q10備孕怎么吃?高齡備孕吃什么提高卵泡數(shù)量?

      本地新聞

      從學(xué)徒到世界冠軍,為什么說(shuō)張雪的底氣在重慶?

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版