HunyuanOCR模型團隊 投稿
量子位 | 公眾號 QbitAI
騰訊混元大模型團隊正式發布并開源HunyuanOCR模型!
這是一款商業級、開源且輕量(1B參數)
的OCR專用視覺語言模型,模型采用原生ViT和輕量LLM結合的架構。
![]()
具體而言,其感知能力(文本檢測和識別、復雜文檔解析)優于所有公開方案;語義能力(信息抽取、文字圖像翻譯)表現出色,榮獲ICDAR 2025 DIMT挑戰賽(小模型賽道)冠軍,并在OCRBench上取得3B以下模型SOTA成績。
目前,該模型在抱抱臉(Hugging Face)趨勢榜排名前四,GitHub標星超過700,并在Day 0被vllm官方團隊接入。
![]()
團隊介紹,混元OCR專家模型實現了三大突破:
(1)全能與高效統一。
在輕量框架下支持文字檢測和識別、復雜文檔解析、開放字段信息抽取、視覺問答和拍照圖像翻譯,解決了傳統專家模型功能單一和通用視覺理解大模型效率低下的痛點。
(2)極簡端到端架構。
摒棄版面分析等前處理依賴,徹底解決流水線錯誤累積問題,大幅簡化部署。
(3)數據驅動與RL創新。
驗證了高質量數據價值,并證明強化學習可顯著提升多項OCR任務性能。
目前模型參數已在抱抱臉和ModelScope等渠道開源,并提供基于vLLM的高性能部署方案,旨在助力科研與工業落地。
HunyuanOCR核心技術大揭秘
作為一款具備商業級性能的開源多語言VLM,混元OCR專家模型的核心動機在于構建一個真正統一、高效的端到端OCR基礎模型。
其核心技術主要聚焦于以下幾個方面:
- 輕量化模型結構設計、高質量預訓練數據生產、重應用導向的預訓練策略和OCR任務定制的強化學習。
輕量化模型結構設計
下圖為HunyuanOCR架構示意圖。
不同于其他開源的級聯OCR方案或專家模型,混元OCR模型貫徹端到端訓推一體范式,各項任務僅需單次推理即可獲取完整效果。
![]()
HunyuanOCR采用由原生分辨率視覺編碼器、自適應MLP連接器和輕量級語言模型構成的協同架構。
視覺部分基于SigLIP-v2-400M,引入自適應Patching機制支持任意分辨率輸入,有效避免了長文檔等極端長寬比場景下的圖像失真與細節丟失。
連接器通過可學習的池化操作充當橋梁,在自適應壓縮高分辨率特征的同時,精準保留了文本密集區的關鍵語義。
語言模型側則基于Hunyuan-0.5B,通過引入創新的XD-RoPE技術,將一維文本、二維版面(高寬)及三維時空信息進行解耦與對齊,賦予了模型處理多欄排版及跨頁邏輯推理的強大能力。
與依賴多模型級聯或后處理的傳統方案不同,HunyuanOCR采用了純粹的端到端訓練與推理范式。
該模型通過大規模高質量的應用導向數據進行驅動,并結合強化學習策略進行優化,實現了從圖像到文本的直接映射。這種設計徹底消除了傳統架構中常見的“錯誤累積”問題,并擺脫了對復雜后處理模塊的依賴,從而在混合版面理解等高難度場景中展現出遠超同類模型的魯棒性與穩定性。
高質量預訓練數據生產
為了系統性提升HunyuanOCR在多語言、多場景及復雜版面下的感知與理解能力,研究團隊構建了一個包含超2億“圖像-文本對”的大規模高質量多模態訓練語料庫。
通過整合公開基準、網絡爬取真實數據及自研工具生成的合成數據,該數據庫覆蓋了9大核心真實場景(包括文檔、街景、廣告、手寫體、截屏、票據卡證、游戲界面、視頻幀及藝術字體)以及超過130種語言的OCR數據。
這套完整的數據生產與清洗流水線,為模型提供了堅實的高質量多模態訓練資源,具體揭示如下:
![]()
(注:圖為高質量預訓練數據,(a)(b)(c)展示了數據合成和仿真增強的效果,(d)(e)展示自動化QA數據生產的案例)
在數據合成方面,研究人員基于SynthDog框架進行了深度擴展,實現了對130多種語言的段落級長文檔渲染及雙向文本(從左到右和從右到左兩種閱讀順序)支持,并能精細控制字體、顏色、混合排版及手寫風格,有效提升了跨語言泛化能力。
同時,引入自研的Warping變形合成流水線,通過模擬幾何變形(折疊、透視)、成像退化(模糊、噪聲)及復雜光照干擾,逼真還原自然場景下的拍攝缺陷。
這種“合成+仿真”的策略顯著增強了模型在文本定位、文檔解析等任務中的魯棒性。
針對高階語義理解任務,團隊開發了一套集“難例挖掘、指令式QA生成與一致性校驗”于一體的自動化流水線。
遵循“一源多用”原則,該流水線實現了對同一圖像進行文本定位、結構化解析(Markdown/JSON)及多維推理問答(信息抽取、摘要、計算)的統一標注。系統優先挖掘低清晰度或含復雜圖表的難例,利用高性能VLM生成多樣化問答對,并通過多模型交叉驗證機制確保數據質量。
這一流程有效解決了復雜場景下高質量VLM訓練數據稀缺的問題,大幅提升了模型的數據利用效率。
重應用導向的預訓練策略
HunyuanOCR采用循序漸進的四階段預訓練策略:
前兩階段聚焦視覺&語言對齊與通用理解能力構建。
其中Stage-1為熱身階段,凍結LLM并僅訓練ViT與MLP適配器,通過Caption和OCR數據實現視覺特征與文本語義空間的對齊,強化基礎感知與結構化理解。
Stage-2解凍所有參數進行端到端學習,依托約300Btoken數據及涵蓋文檔解析、文字檢測和識別、圖片翻譯、VQA的多任務合成樣本,深度增強模型對文檔、表格、公式、圖表等復雜結構化內容的感知和理解能力。
后兩階段則側重長文檔處理能力與實際應用場景適配。
Stage-3將上下文窗口擴展至32k,通過長窗口數據訓練滿足長文檔圖像解析與理解需求。
Stage-4開展應用導向的退火訓練,結合精心篩選的人工標注真值數據與高質量合成數據,通過統一指令模版與標準化輸出格式規范模型響應模式,既提升了復雜場景下的魯棒性,也為后續強化學習階段奠定了堅實基礎。
下面的表格展示了混元OCR模型四階段預訓練:
![]()
OCR任務定制的強化學習方案
盡管強化學習已在大型推理模型中取得顯著成功,Hunyuan視覺團隊創新性地將其應用于注重效率的輕量級OCR專家模型。
針對OCR任務結構化強且易于驗證的特點,采取了混合策略:
對于文字檢測識別和文檔解析等具有封閉解的任務,采用基于可驗證獎勵的強化學習。
而對于翻譯和VQA等開放式任務,則設計了基于LLM-as-a-judge的獎勵機制。這種結合證明了輕量級模型也能通過RL獲得顯著性能躍升,為邊緣側和移動端的高性能應用開辟了新路徑。
![]()
以下是三個主要注意事項:
第一,嚴苛的數據篩選。
數據構建嚴格遵循質量、多樣性與難度平衡原則,利用LLM過濾低質數據,并剔除過于簡單或無法求解的樣本以保持訓練的有效性。
第二,自適應獎勵設計。
文字檢測和識別任務上,綜合考慮IoU與編輯距離。
復雜文檔解析任務聚焦于結構與內容的準確性;VQA采用基于語義匹配的二值獎勵;而文本圖像翻譯則引入經過去偏歸一化的軟獎勵(例如0~5的連續空間),特意擴展了中段分數的粒度,以便更敏銳地捕捉翻譯質量的細微差異。
第三,GRPO算法與格式約束優化。
訓練階段采用群組相對策略優化(GRPO)作為核心算法,為了確保訓練的穩定性,團隊引入了嚴格的長度約束與格式規范機制,任何超長或不符合預定義Schema(如結構化解析格式)的輸出將直接被判為零獎勵。
這一強約束機制迫使模型專注于生成有效、規范且可驗證的輸出,從而在受限條件下習得精準的推理與格式化能力。
項目主頁:
https://hunyuan.tencent.com/vision/zh?tabIndex=0
Github:
GitHub-Tencent-Hunyuan/HunyuanOCR
抱抱臉:
https://huggingface.co/tencent/HunyuanOCR
論文:
https://arxiv.org/abs/2511.19575
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.