<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      又一個 OCR 新模型開源了

      0
      分享至

      繼續(xù)聊 OCR,不過這次我覺得重點(diǎn)不只是“識別準(zhǔn)不準(zhǔn)”,而是另一個更容易被忽視、但更影響真實(shí)落地的問題:結(jié)構(gòu)到底對不對。

      2026 年 2 月 28 日,F(xiàn)ireRedTeam 放出了FireRed-OCR-2B權(quán)重;2026 年 3 月 2 日,團(tuán)隊(duì)又把技術(shù)報(bào)告掛到了 arXiv。看完論文和模型卡之后,我的第一感覺是:這項(xiàng)目不是在拼“再做一個 OCR”,而是在認(rèn)真解決通用 VLM 做文檔解析時(shí)最煩人的老毛病:結(jié)構(gòu)幻覺

      但是說實(shí)話,識別一些有難度的表格,它還是差點(diǎn)意思,底座2B,不能要求太高。

      比如下圖是我隨手截取的招股說明書中一張表格

      其中難點(diǎn):表格無線(不連續(xù))、表頭嵌套、括號、省略號、縮進(jìn)、空白、繁體字、小字、黑色下劃線,帶換行的合并單元格等各種干擾因素。


      表格后半部分的識別就完全垮掉了


      還有一個我的專用測試圖(這張圖難點(diǎn)很多)


      就單說表格部分也算還行吧,跟 DeepSeek、GLM、混元、Paddle 這幾個 OCR 還是有點(diǎn)差距的。


      簡介

      一句話講清楚:FireRed-OCR 是一個把通用視覺語言模型,專門訓(xùn)成結(jié)構(gòu)化文檔解析專家的框架。

      它的底座是Qwen/Qwen3-VL-2B-Instruct

      但它做出來的結(jié)果很夸張:

      • OmniDocBench v1.5上拿到92.94

      • 在端到端路線里排第一

      • 超過了DeepSeek-OCR 2(91.09)OCRVerse(88.56)

      • 相比原始底座Qwen3-VL-2B(81.87),直接拉開了一個明顯身位

      這里我要專門說一句,別被標(biāo)題黨帶偏了。FireRed-OCR 不是當(dāng)前 OmniDocBench 全榜第一。論文和模型卡里給出的數(shù)據(jù)很清楚:如果把 pipeline 方案也算進(jìn)來,GLM-OCR是 94.60,PaddleOCR-VL-1.5是 94.50。FireRed-OCR 真正厲害的地方,是它在end-to-end路線里做到第一,而且只用了一個 2B 級別底座。

      現(xiàn)在 OCR 賽道最有意思的事,不再是“誰能看懂文檔”,而是“誰能在小模型、端到端、結(jié)構(gòu)穩(wěn)定這三個約束下,把結(jié)果做漂亮”。

      FireRed-OCR 到底想解決什么

      如果你這兩年用過通用多模態(tài)模型做 PDF 轉(zhuǎn) Markdown,大概率都有過類似體驗(yàn):

      • 文字識別得八九不離十

      • 一到表格就開始錯行錯列

      • 一到公式就開始漏括號、少花括號

      • 一到復(fù)雜排版,閱讀順序直接亂掉

      這就是論文里說的Structural Hallucination

      通俗點(diǎn)說,模型“看懂了個大概”,但它生成出來的不是一個可以直接拿去用的結(jié)構(gòu)化結(jié)果。對于聊天演示,這可能問題不大;但對 RAG、知識庫清洗、PDF 轉(zhuǎn) Markdown、財(cái)報(bào)解析、論文數(shù)據(jù)抽取這些真實(shí)場景來說,這問題很致命。

      FireRed-OCR 的思路我很喜歡,它不是繼續(xù)讓模型“憑感覺寫”,而是把方向從“印象派生成”往“結(jié)構(gòu)工程”上硬拉。

      下圖就是官方給出的基準(zhǔn)測試結(jié)果,F(xiàn)ireRed-OCR 在端到端方案里確實(shí)很能打:


      FireRed-OCR 在 OmniDocBench v1.5 上的性能對比 它做對了哪三件事

      我把論文和模型卡里的技術(shù)路線壓縮一下,最值得看的其實(shí)就三件事。

      第一件事,是數(shù)據(jù)工廠不是亂采樣。

      論文里提了一個很重要的設(shè)計(jì):Geometry + Semantics Data Factory

      什么意思?以前很多 OCR 數(shù)據(jù)構(gòu)建思路,更多是“多收點(diǎn)數(shù)據(jù),多做點(diǎn)增強(qiáng)”。FireRed-OCR 不是這么干的。它強(qiáng)調(diào)幾何特征聚類和多維標(biāo)簽,用來合成長尾布局、稀有文檔類型,并且把數(shù)據(jù)分布盡量做平衡。

      這件事特別關(guān)鍵。因?yàn)槲臋n解析真正難的,往往不是普通段落,而是那些稀奇古怪的版式:多欄、嵌套表格、公式和文本混排、圖注交錯、掃描噪聲、非標(biāo)準(zhǔn)閱讀順序。這些東西不靠數(shù)據(jù)分布設(shè)計(jì),光靠模型參數(shù)堆,很難真解決。

      第二件事,是訓(xùn)練流程分三步走。

      FireRed-OCR 不是一把梭微調(diào),而是一個三階段漸進(jìn)式訓(xùn)練:

      1. Multi-task Pre-alignment:先做檢測、區(qū)域識別、layout-to-markdown 等任務(wù),讓模型建立空間 grounding

      2. Specialized SFT:再用高質(zhì)量標(biāo)準(zhǔn)化 Markdown 數(shù)據(jù)做監(jiān)督微調(diào),把“完整輸出一頁結(jié)構(gòu)化結(jié)果”的格式穩(wěn)定下來

      3. Format-Constrained GRPO:最后上強(qiáng)化學(xué)習(xí),用格式約束獎勵去卡公式語法、表格閉合、層級閉合和文本準(zhǔn)確性

      這個設(shè)計(jì)非常像一個成熟工程團(tuán)隊(duì)會做的事。先讓模型“看得準(zhǔn)”,再讓模型“寫得穩(wěn)”,最后讓模型“別犯結(jié)構(gòu)性低級錯誤”。

      第三件事,是它真把“結(jié)構(gòu)約束”當(dāng)目標(biāo)函數(shù)來優(yōu)化了。

      這一點(diǎn)我覺得是 FireRed-OCR 最值錢的地方。

      很多模型在 OCR 任務(wù)上看起來文字準(zhǔn)確率不錯,但一落到 Markdown 或 LaTeX 輸出,結(jié)構(gòu)錯一點(diǎn),后續(xù)鏈路就全廢了。FireRed-OCR 直接用Format-Constrained GRPO去獎勵公式語法正確、表格完整、層級閉合,這就等于把“能不能被程序繼續(xù)消費(fèi)”作為訓(xùn)練目標(biāo),而不是只看表面文本像不像。

      這張圖是官方給出的整體架構(gòu):


      FireRed-OCR 三階段訓(xùn)練架構(gòu) 實(shí)驗(yàn)結(jié)果怎么看

      論文和模型卡里最亮眼的一組數(shù)據(jù)是:

      • OmniDocBench v1.5:FireRed-OCR-2B =92.94

      • 文字編輯距離 =0.032

      • 公式分?jǐn)?shù) =91.71

      • 表格TEDS=90.31

      • 表格TEDS_s=93.81

      • 閱讀順序編輯距離 =0.041

      如果只看端到端陣營,這個結(jié)果確實(shí)很強(qiáng)。

      另外還有一個我很在意的點(diǎn):FireRedBench。這是更偏“野外復(fù)雜文檔”的測試集。FireRed-OCR-2B 在這里拿到74.62,同一個底座Qwen3-VL-2B-Instruct65.58DeepSeek-OCR 261.61

      這說明它不是只會做 benchmark 特化,至少從官方數(shù)據(jù)看,它在復(fù)雜、不標(biāo)準(zhǔn)版式上也有明顯提升。

      當(dāng)然,真實(shí)生產(chǎn)是否穩(wěn),還得看后續(xù)社區(qū)大規(guī)模實(shí)測。但至少從方法設(shè)計(jì)到指標(biāo)結(jié)果,這個項(xiàng)目是自洽的。

      安裝

      官方給的安裝方式很直接:

      pip install transformers
      pip install qwen-vl-utils
      git clone https://github.com/FireRedTeam/FireRed-OCR.git
      cd FireRed-OCR

      模型目前托管在 Hugging Face,模型卡標(biāo)注的 license 是Apache-2.0,底座是Qwen/Qwen3-VL-2B-Instruct

      使用

      官方給的是基于transformers的推理方式,輸入文檔圖像,輸出結(jié)構(gòu)化 Markdown。

      from transformers import Qwen3VLForConditionalGeneration, AutoProcessor
      from conv_for_infer import generate_conv

      model = Qwen3VLForConditionalGeneration.from_pretrained(
      "FireRedTeam/FireRed-OCR",
      torch_dtype=torch.bfloat16,
      device_map="auto",
      )

      processor = AutoProcessor.from_pretrained("FireRedTeam/FireRed-OCR")

      image_path = "./examples/complex_table.png"
      messages = generate_conv(image_path)

      inputs = processor.apply_chat_template(
      messages,
      tokenize=True,
      add_generation_prompt=True,
      return_dict=True,
      return_tensors="pt"
      )
      inputs = inputs.to(model.device)

      generated_ids = model.generate(**inputs, max_new_tokens=8192)
      generated_ids_trimmed = [
      out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
      ]
      output_text = processor.batch_decode(
      generated_ids_trimmed,
      skip_special_tokens=True,
      clean_up_tokenization_spaces=False
      )
      print(output_text)

      官方還特別提到,如果場景里有多圖或者視頻,建議開flash_attention_2,這樣速度和顯存表現(xiàn)會更好。

      不過這里也順手提個邊界:目前公開材料里,官方主推的還是 transformers 推理示例。如果你打算直接做大規(guī)模服務(wù)化部署,后續(xù)還得繼續(xù)看社區(qū)有沒有更成熟的 vLLM、SGLang 或 API server 方案。

      我的判斷

      如果你問我,這項(xiàng)目值不值得跟,我的答案是:值得,而且值得重點(diǎn)看它的方法,不只是看它的分?jǐn)?shù)。

      我比較看重它三個判斷:

      • 判斷一:通用 VLM 不是不能做 OCR,但必須專項(xiàng)訓(xùn)練。

      • 判斷二:OCR 的核心不只是識字,而是結(jié)構(gòu)完整性。

      • 判斷三:小模型也能打,前提是數(shù)據(jù)工廠和訓(xùn)練目標(biāo)設(shè)計(jì)得足夠狠。

      這其實(shí)也解釋了為什么 FireRed-OCR 會讓我眼前一亮。它不是在講一個“參數(shù)更大所以更強(qiáng)”的故事,而是在講一個更靠譜的工程故事:把任務(wù)定義清楚,把數(shù)據(jù)分布做對,把獎勵函數(shù)卡在真正影響落地的地方。

      當(dāng)然,它現(xiàn)在也不是完美答案。

      • 從榜單看,它還不是全賽道絕對第一

      • 當(dāng)前公開版本主要是 2B 權(quán)重,生態(tài)還在早期

      • 真正上生產(chǎn),還得看社區(qū)對中文文檔、掃描件、票據(jù)、財(cái)報(bào)、超長 PDF 的實(shí)測反饋

      但即便如此,我還是覺得這個方向非常對。

      制作不易,如果這篇文章覺得對你有用,可否點(diǎn)個關(guān)注。給我個三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      國運(yùn)來了擋不住!我國發(fā)現(xiàn)世界最大"超巨型金礦床"、價(jià)值6000億

      國運(yùn)來了擋不住!我國發(fā)現(xiàn)世界最大"超巨型金礦床"、價(jià)值6000億

      愛競彩的小周
      2026-04-02 12:32:25
      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      張嘴說財(cái)經(jīng)
      2026-04-01 22:24:17
      太突然!他倆宣布離婚

      太突然!他倆宣布離婚

      廣州生活美食圈
      2026-04-01 19:01:31
      今麥郎董事長回應(yīng)“手打掛面的‘手打’是商標(biāo)”:該商標(biāo)已用了20年,4月2日凌晨起停產(chǎn)相關(guān)產(chǎn)品

      今麥郎董事長回應(yīng)“手打掛面的‘手打’是商標(biāo)”:該商標(biāo)已用了20年,4月2日凌晨起停產(chǎn)相關(guān)產(chǎn)品

      封面新聞
      2026-04-02 05:07:12
      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      娛樂的宅急便
      2026-04-01 14:42:42
      福建福州振興鄉(xiāng)村集團(tuán)有限公司董事長陳志武接受審查調(diào)查

      福建福州振興鄉(xiāng)村集團(tuán)有限公司董事長陳志武接受審查調(diào)查

      界面新聞
      2026-04-02 08:36:22
      66歲陳永貴,退休后對秘書發(fā)脾氣,李先念下令:不許再給他送文件

      66歲陳永貴,退休后對秘書發(fā)脾氣,李先念下令:不許再給他送文件

      簡史檔案館
      2026-04-02 11:05:03
      特朗普剛表態(tài)認(rèn)輸,不到24小時(shí),美債遭遇大規(guī)模拋售,美國失算了

      特朗普剛表態(tài)認(rèn)輸,不到24小時(shí),美債遭遇大規(guī)模拋售,美國失算了

      深析古今
      2026-04-01 21:52:44
      金價(jià)徹底爆了!

      金價(jià)徹底爆了!

      新浪財(cái)經(jīng)
      2026-04-02 10:04:40
      現(xiàn)在教育最大的問題是:大多數(shù)學(xué)生根本就不想學(xué)習(xí)。

      現(xiàn)在教育最大的問題是:大多數(shù)學(xué)生根本就不想學(xué)習(xí)。

      李老師講最真教育
      2026-04-01 22:07:16
      山西柳林一飯店發(fā)現(xiàn)3人死亡 疑似煤氣中毒

      山西柳林一飯店發(fā)現(xiàn)3人死亡 疑似煤氣中毒

      新京報(bào)
      2026-04-02 12:21:11
      李榮浩抄襲案逆轉(zhuǎn)? 網(wǎng)揪「時(shí)間軸證據(jù)」質(zhì)疑說謊:版權(quán)公司根本沒倒

      李榮浩抄襲案逆轉(zhuǎn)? 網(wǎng)揪「時(shí)間軸證據(jù)」質(zhì)疑說謊:版權(quán)公司根本沒倒

      ETtoday星光云
      2026-04-02 16:50:10
      女生主動起來有多黏人?網(wǎng)友:這些女的太開放了

      女生主動起來有多黏人?網(wǎng)友:這些女的太開放了

      帶你感受人間冷暖
      2026-01-27 00:20:06
      鄭麗文強(qiáng)援已到!美國竄訪團(tuán)抵臺當(dāng)天,北京出手,大陸來撐腰了

      鄭麗文強(qiáng)援已到!美國竄訪團(tuán)抵臺當(dāng)天,北京出手,大陸來撐腰了

      混沌錄
      2026-04-01 20:37:15
      不能錯過!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      不能錯過!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-04-02 13:52:19
      社交潛規(guī)則:沒有人有義務(wù)透過你邋遢的外表,去發(fā)現(xiàn)你優(yōu)秀的內(nèi)在

      社交潛規(guī)則:沒有人有義務(wù)透過你邋遢的外表,去發(fā)現(xiàn)你優(yōu)秀的內(nèi)在

      清風(fēng)拂心
      2026-03-18 10:08:19
      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術(shù)曾做史泰龍保鏢

      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術(shù)曾做史泰龍保鏢

      大象新聞
      2026-03-31 14:49:05
      天氣轉(zhuǎn)暖,醫(yī)生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      天氣轉(zhuǎn)暖,醫(yī)生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      岐黃傳人孫大夫
      2026-03-30 23:30:03
      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      可樂談情感
      2026-03-29 15:16:24
      晚飯七分飽被推翻了?醫(yī)生調(diào)查:過了56歲,吃飯盡量要做到這5點(diǎn)

      晚飯七分飽被推翻了?醫(yī)生調(diào)查:過了56歲,吃飯盡量要做到這5點(diǎn)

      蜉蝣說
      2026-02-03 15:00:19
      2026-04-02 17:28:49
      Ai學(xué)習(xí)的老章 incentive-icons
      Ai學(xué)習(xí)的老章
      Ai學(xué)習(xí)的老章
      3302文章數(shù) 11122關(guān)注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應(yīng)

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應(yīng)

      體育要聞

      這六個字,代表了邵佳一的新國足

      娛樂要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財(cái)經(jīng)要聞

      電商售械三水光針 機(jī)構(gòu)倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態(tài)度原創(chuàng)

      藝術(shù)
      家居
      房產(chǎn)
      健康
      數(shù)碼

      藝術(shù)要聞

      故人西辭黃鶴樓,煙花三月下?lián)P州

      家居要聞

      歲月靜好 典雅新章

      房產(chǎn)要聞

      大反轉(zhuǎn)!海口今年首宗重磅江景地塊,拍賣突然終止!

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      數(shù)碼要聞

      中國芯片廠商占領(lǐng)本土近半市場 NVIDIA領(lǐng)先優(yōu)勢大幅縮減

      無障礙瀏覽 進(jìn)入關(guān)懷版