<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      混元OCR模型核心技術揭秘:統一框架、真端到端

      0
      分享至

      HunyuanOCR模型團隊 投稿
      量子位 | 公眾號 QbitAI

      騰訊混元大模型團隊正式發布并開源HunyuanOCR模型

      這是一款商業級、開源且輕量(1B參數)

      的OCR專用視覺語言模型,模型采用原生ViT和輕量LLM結合的架構。



      具體而言,其感知能力(文本檢測和識別、復雜文檔解析)優于所有公開方案;語義能力(信息抽取、文字圖像翻譯)表現出色,榮獲ICDAR 2025 DIMT挑戰賽(小模型賽道)冠軍,并在OCRBench上取得3B以下模型SOTA成績。

      目前,該模型在抱抱臉(Hugging Face)趨勢榜排名前四,GitHub標星超過700,并在Day 0被vllm官方團隊接入。



      團隊介紹,混元OCR專家模型實現了三大突破:

      (1)全能與高效統一

      在輕量框架下支持文字檢測和識別、復雜文檔解析、開放字段信息抽取、視覺問答和拍照圖像翻譯,解決了傳統專家模型功能單一和通用視覺理解大模型效率低下的痛點。

      (2)極簡端到端架構

      摒棄版面分析等前處理依賴,徹底解決流水線錯誤累積問題,大幅簡化部署。

      (3)數據驅動與RL創新

      驗證了高質量數據價值,并證明強化學習可顯著提升多項OCR任務性能。

      目前模型參數已在抱抱臉和ModelScope等渠道開源,并提供基于vLLM的高性能部署方案,旨在助力科研與工業落地。

      HunyuanOCR核心技術大揭秘

      作為一款具備商業級性能的開源多語言VLM,混元OCR專家模型的核心動機在于構建一個真正統一、高效的端到端OCR基礎模型。

      其核心技術主要聚焦于以下幾個方面:

      • 輕量化模型結構設計、高質量預訓練數據生產、重應用導向的預訓練策略和OCR任務定制的強化學習。

      輕量化模型結構設計

      下圖為HunyuanOCR架構示意圖。

      不同于其他開源的級聯OCR方案或專家模型,混元OCR模型貫徹端到端訓推一體范式,各項任務僅需單次推理即可獲取完整效果。



      HunyuanOCR采用由原生分辨率視覺編碼器、自適應MLP連接器和輕量級語言模型構成的協同架構。

      視覺部分基于SigLIP-v2-400M,引入自適應Patching機制支持任意分辨率輸入,有效避免了長文檔等極端長寬比場景下的圖像失真與細節丟失。

      連接器通過可學習的池化操作充當橋梁,在自適應壓縮高分辨率特征的同時,精準保留了文本密集區的關鍵語義。

      語言模型側則基于Hunyuan-0.5B,通過引入創新的XD-RoPE技術,將一維文本、二維版面(高寬)及三維時空信息進行解耦與對齊,賦予了模型處理多欄排版及跨頁邏輯推理的強大能力。

      與依賴多模型級聯或后處理的傳統方案不同,HunyuanOCR采用了純粹的端到端訓練與推理范式

      該模型通過大規模高質量的應用導向數據進行驅動,并結合強化學習策略進行優化,實現了從圖像到文本的直接映射。這種設計徹底消除了傳統架構中常見的“錯誤累積”問題,并擺脫了對復雜后處理模塊的依賴,從而在混合版面理解等高難度場景中展現出遠超同類模型的魯棒性與穩定性。

      高質量預訓練數據生產

      為了系統性提升HunyuanOCR在多語言、多場景及復雜版面下的感知與理解能力,研究團隊構建了一個包含超2億“圖像-文本對”的大規模高質量多模態訓練語料庫。

      通過整合公開基準、網絡爬取真實數據及自研工具生成的合成數據,該數據庫覆蓋了9大核心真實場景(包括文檔、街景、廣告、手寫體、截屏、票據卡證、游戲界面、視頻幀及藝術字體)以及超過130種語言的OCR數據

      這套完整的數據生產與清洗流水線,為模型提供了堅實的高質量多模態訓練資源,具體揭示如下:



      (注:圖為高質量預訓練數據,(a)(b)(c)展示了數據合成和仿真增強的效果,(d)(e)展示自動化QA數據生產的案例)

      在數據合成方面,研究人員基于SynthDog框架進行了深度擴展,實現了對130多種語言的段落級長文檔渲染及雙向文本(從左到右和從右到左兩種閱讀順序)支持,并能精細控制字體、顏色、混合排版及手寫風格,有效提升了跨語言泛化能力。

      同時,引入自研的Warping變形合成流水線,通過模擬幾何變形(折疊、透視)、成像退化(模糊、噪聲)及復雜光照干擾,逼真還原自然場景下的拍攝缺陷。

      這種“合成+仿真”的策略顯著增強了模型在文本定位、文檔解析等任務中的魯棒性。

      針對高階語義理解任務,團隊開發了一套集“難例挖掘、指令式QA生成與一致性校驗”于一體的自動化流水線。

      遵循“一源多用”原則,該流水線實現了對同一圖像進行文本定位、結構化解析(Markdown/JSON)及多維推理問答(信息抽取、摘要、計算)的統一標注。系統優先挖掘低清晰度或含復雜圖表的難例,利用高性能VLM生成多樣化問答對,并通過多模型交叉驗證機制確保數據質量。

      這一流程有效解決了復雜場景下高質量VLM訓練數據稀缺的問題,大幅提升了模型的數據利用效率。

      重應用導向的預訓練策略

      HunyuanOCR采用循序漸進的四階段預訓練策略

      前兩階段聚焦視覺&語言對齊與通用理解能力構建。

      其中Stage-1為熱身階段,凍結LLM并僅訓練ViT與MLP適配器,通過Caption和OCR數據實現視覺特征與文本語義空間的對齊,強化基礎感知與結構化理解。

      Stage-2解凍所有參數進行端到端學習,依托約300Btoken數據及涵蓋文檔解析、文字檢測和識別、圖片翻譯、VQA的多任務合成樣本,深度增強模型對文檔、表格、公式、圖表等復雜結構化內容的感知和理解能力。

      后兩階段則側重長文檔處理能力與實際應用場景適配。

      Stage-3將上下文窗口擴展至32k,通過長窗口數據訓練滿足長文檔圖像解析與理解需求。

      Stage-4開展應用導向的退火訓練,結合精心篩選的人工標注真值數據與高質量合成數據,通過統一指令模版與標準化輸出格式規范模型響應模式,既提升了復雜場景下的魯棒性,也為后續強化學習階段奠定了堅實基礎。

      下面的表格展示了混元OCR模型四階段預訓練:



      OCR任務定制的強化學習方案

      盡管強化學習已在大型推理模型中取得顯著成功,Hunyuan視覺團隊創新性地將其應用于注重效率的輕量級OCR專家模型。

      針對OCR任務結構化強且易于驗證的特點,采取了混合策略

      對于文字檢測識別和文檔解析等具有封閉解的任務,采用基于可驗證獎勵的強化學習。

      而對于翻譯和VQA等開放式任務,則設計了基于LLM-as-a-judge的獎勵機制。這種結合證明了輕量級模型也能通過RL獲得顯著性能躍升,為邊緣側和移動端的高性能應用開辟了新路徑。



      以下是三個主要注意事項:

      第一,嚴苛的數據篩選

      數據構建嚴格遵循質量、多樣性與難度平衡原則,利用LLM過濾低質數據,并剔除過于簡單或無法求解的樣本以保持訓練的有效性。

      第二,自適應獎勵設計

      文字檢測和識別任務上,綜合考慮IoU與編輯距離。

      復雜文檔解析任務聚焦于結構與內容的準確性;VQA采用基于語義匹配的二值獎勵;而文本圖像翻譯則引入經過去偏歸一化的軟獎勵(例如0~5的連續空間),特意擴展了中段分數的粒度,以便更敏銳地捕捉翻譯質量的細微差異。

      第三,GRPO算法與格式約束優化

      訓練階段采用群組相對策略優化(GRPO)作為核心算法,為了確保訓練的穩定性,團隊引入了嚴格的長度約束與格式規范機制,任何超長或不符合預定義Schema(如結構化解析格式)的輸出將直接被判為零獎勵。

      這一強約束機制迫使模型專注于生成有效、規范且可驗證的輸出,從而在受限條件下習得精準的推理與格式化能力。

      項目主頁:

      https://hunyuan.tencent.com/vision/zh?tabIndex=0

      Github:

      GitHub-Tencent-Hunyuan/HunyuanOCR

      抱抱臉:

      https://huggingface.co/tencent/HunyuanOCR

      論文:

      https://arxiv.org/abs/2511.19575

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      湖南煙花店老板放煙花自殺事件后續來了:真相大白,令人唏噓

      湖南煙花店老板放煙花自殺事件后續來了:真相大白,令人唏噓

      復轉這些年
      2025-12-07 18:02:55
      開始上強度了,就差直接發射!日本F15被照后,轉頭就找美國哭訴

      開始上強度了,就差直接發射!日本F15被照后,轉頭就找美國哭訴

      青青子衿
      2025-12-08 02:32:59
      為烏克蘭捐款的明星名人有哪些?

      為烏克蘭捐款的明星名人有哪些?

      難得君
      2025-12-07 00:21:21
      太美了!為馬克龍獻花的川大女孩身份曝光!顏值極高,還是學霸!

      太美了!為馬克龍獻花的川大女孩身份曝光!顏值極高,還是學霸!

      鋭娛之樂
      2025-12-07 20:53:34
      華為Mate X7在出廠前經歷了什么?來場深度體檢看看

      華為Mate X7在出廠前經歷了什么?來場深度體檢看看

      極果酷玩
      2025-12-05 12:56:25
      全網封禁后在海外發聲?陳震的迷之操作,撞上央視的整治槍口

      全網封禁后在海外發聲?陳震的迷之操作,撞上央視的整治槍口

      雷科技
      2025-12-07 13:15:52
      爆砍29+7+6,詹姆斯打爆喬治!東契奇怒砍3雙,湖人重回西部第2

      爆砍29+7+6,詹姆斯打爆喬治!東契奇怒砍3雙,湖人重回西部第2

      籃球圈里的那些事
      2025-12-08 11:48:12
      15連勝本季最長!雷霆大勝爵士24戰23勝 亞歷山大缺席雙少50分

      15連勝本季最長!雷霆大勝爵士24戰23勝 亞歷山大缺席雙少50分

      醉臥浮生
      2025-12-08 11:31:23
      海參崴本該在1995年歸還中國斯大林親筆簽名同意,后來為何黃了?

      海參崴本該在1995年歸還中國斯大林親筆簽名同意,后來為何黃了?

      霹靂炮
      2025-12-06 21:45:58
      iPhone 17 Pro官方降價

      iPhone 17 Pro官方降價

      大象新聞
      2025-12-08 11:30:46
      黃一鳴帶女兒醫院看病,意外曝光女兒名字,網友:王思聰會后悔的

      黃一鳴帶女兒醫院看病,意外曝光女兒名字,網友:王思聰會后悔的

      小咪侃娛圈
      2025-12-08 09:04:58
      三大賽第三套大滿貫!塞爾比10-8特魯姆普,9年后再奪英錦賽冠軍

      三大賽第三套大滿貫!塞爾比10-8特魯姆普,9年后再奪英錦賽冠軍

      全景體育V
      2025-12-08 07:07:05
      江蘇少婦出軌已婚男同事:高顏值照曝光,少婦一句話爭議大

      江蘇少婦出軌已婚男同事:高顏值照曝光,少婦一句話爭議大

      老貓觀點
      2025-12-08 10:27:14
      要是10年內經濟持續下行,普通老百姓該怎么面對?

      要是10年內經濟持續下行,普通老百姓該怎么面對?

      經濟學教授V
      2025-12-07 18:07:14
      痛心!連霍高速十幾車連撞9死7傷,現場曝光十分慘烈,網友求改名

      痛心!連霍高速十幾車連撞9死7傷,現場曝光十分慘烈,網友求改名

      派大星紀錄片
      2025-12-07 11:46:14
      越老越妖!詹姆斯末節13分,助湖人4分險勝,這一戰我看清6大球星

      越老越妖!詹姆斯末節13分,助湖人4分險勝,這一戰我看清6大球星

      籃球看比賽
      2025-12-08 11:47:04
      跟風被咀嚼過的《芳華》,一場庸眾的鬧劇

      跟風被咀嚼過的《芳華》,一場庸眾的鬧劇

      關爾東
      2025-12-07 12:44:17
      楊瀚森閃耀NBA!絲滑轉身暴扣,連得4分!賽后斯普利特作出評價

      楊瀚森閃耀NBA!絲滑轉身暴扣,連得4分!賽后斯普利特作出評價

      球場沒跑道
      2025-12-08 09:50:39
      26歲閔超已任浙江大學博導

      26歲閔超已任浙江大學博導

      極目新聞
      2025-12-08 10:18:43
      馬斯克被干懵了:特斯拉全球第4,前3全是中國車,小米都排第7了

      馬斯克被干懵了:特斯拉全球第4,前3全是中國車,小米都排第7了

      互聯網.亂侃秀
      2025-12-07 11:37:05
      2025-12-08 12:00:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11820文章數 176340關注度
      往期回顧 全部

      科技要聞

      萬億蘋果,正在經歷一場嚴重的“大失血”

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      游戲
      健康
      藝術
      教育
      時尚

      超真實的沉浸式中世紀鍛造模擬器

      甲狀腺結節到這個程度,該穿刺了!

      藝術要聞

      從3萬人的“小香港”到十室九空!江西深山被廢棄的煤礦小鎮

      教育要聞

      當你的孩子主動給你買東西

      除了大衣,今年最火的外套一定就是它了!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久精品中文字幕| 中日韩精品视频一区二区三区| www.大熟女| 亚洲国产高清av网站| 白河县| 欧洲AV在线| 色色欧美| 国产乱人伦精品| 樱花影院电视剧免费| 十八禁黄网站| 欧美日韩视频综合一区无弹窗| 国产又粗又猛又黄又爽无遮挡| 亚洲中文字幕一区二区| 中文无码人妻有码人妻中文字幕| 啪啪电影| 美女网站免费福利视频| 国产精品久久久久久av| 精品人妻中文无码av在线| 无码av免费精品一区二区三区| 69久久精品无码一区二区| 人妻有码av中文字幕久久琪 | 亚洲色欲久久久综合网东京热| 两个人看的www视频免费完整版| 久久久精品国产sm调教网站| 亚洲国产成人av毛片大全| 91亚洲色图| 韩国精品久久久久久无码| 亚洲熟妇久久精品| 十八禁成人网站| 亚洲第一国产综合| 浴室人妻的情欲hd三级国产| 国产乱国产乱老熟300部视频| 99免费精品视频| 亚洲日韩成人精品| 久热在线中文字幕色999舞| 亚洲性爱AV| 亚洲天堂手机在线| 五原县| 天天躁日日躁狠狠躁欧美| 国产真人性做爰久久网站| 久久精品国产99久久6|