![]()
2025年11月24日,騰訊混元視覺團隊在arXiv上發(fā)布了一篇技術報告,介紹了最新開源的HunyuanOCR模型。這個僅有10億參數(shù)的小模型,在多項測試中竟然擊敗了參數(shù)量是它幾十倍甚至上百倍的大模型。
HunyuanOCR用巧妙的設計和精心的訓練方法,證明了"小而美"的力量。這篇文章將帶你深入了解這位OCR界的"小鋼炮"是如何煉成的。
什么是OCR
在正式介紹HunyuanOCR之前,我們先來聊聊OCR到底是什么。OCR的全稱是"光學字符識別",簡單來說,就是讓電腦能夠"看懂"圖片中的文字。你可能已經(jīng)在日常生活中不知不覺地使用過OCR技術了:用手機掃描名片、拍照翻譯外文菜單、把紙質(zhì)文件轉(zhuǎn)換成可編輯的電子文檔,這些功能背后都有OCR在默默工作。
想象你面前有一堆圖片需要分析。傳統(tǒng)的方式是你得一張張看,一個字一個字地抄寫下來。而OCR就像是給你配備了一位超級助手,它能瞬間"看"完所有圖片,并把里面的文字都整理出來。更厲害的是,現(xiàn)代OCR不僅能認字,還能理解文檔的結構,哪里是標題、哪里是表格、哪里是公式,就像這位助手不僅能抄寫,還能幫你整理成條理清晰的筆記。
隨著人工智能的快速發(fā)展,OCR的應用場景已經(jīng)遠遠超出了簡單的文字識別。在辦公和教育領域,OCR能幫助翻譯文獻、提供學科輔導。在醫(yī)療健康領域,OCR可以將醫(yī)療記錄數(shù)字化存檔,幫助分析病歷,為患者提供更好的治療建議。更重要的是,OCR系統(tǒng)正在成為訓練大型語言模型的重要工具,那些專業(yè)書籍和歷史檔案中蘊含的知識,正是通過OCR技術被"解鎖"并用于訓練AI的。
傳統(tǒng)OCR的困境:流水線上的煩惱
在HunyuanOCR出現(xiàn)之前,業(yè)界主流的OCR解決方案大多采用"流水線"式的架構。這就像一家工廠的生產(chǎn)線,每個工位負責一道工序:第一個工位負責檢測文字在哪里,第二個工位負責識別檢測到的文字內(nèi)容,第三個工位負責分析文檔的布局結構,第四個工位負責識別其中的公式和表格,如果還需要翻譯,那就再加一個工位。
這種流水線式的設計確實有它的優(yōu)點:模塊化程度高,每個環(huán)節(jié)都可以單獨優(yōu)化和更換。但問題也隨之而來。首先是"踢皮球效應",如果第一個工位(文字檢測)出了錯,比如漏掉了一行字,那這個錯誤就會一路傳遞下去,后面的工位再厲害也無法彌補。這就像接力賽跑,第一棒選手掉了棒,后面的隊友跑得再快也追不回來了。
其次是維護成本高昂,想象你要維護一條有五六個工位的生產(chǎn)線,每個工位都需要專業(yè)人員調(diào)試,工位之間的銜接也需要協(xié)調(diào)。一個完整的文檔解析系統(tǒng),可能需要整合高精度的文字檢測模塊、多語言文字識別引擎、精細的布局分析組件、專業(yè)的數(shù)學公式識別模塊,以及結構化的表格識別單元。這種模塊堆疊的設計不僅增加了部署的復雜性,還需要專業(yè)人員對各個組件進行協(xié)調(diào)調(diào)優(yōu)。
近年來,隨著視覺語言模型的進步,一些專門用于OCR和文檔解析的開源模型相繼問世,比如MonkeyOCR、Dots.OCR、MinerU2.5和PaddleOCR-VL等。這些努力試圖通過大規(guī)模建模來提高解析精度。然而,由于當前開源模型在處理復雜布局和長文本序列時的魯棒性有限,許多模型仍然依賴于前置的布局分析模塊來檢測文檔元素,然后由視覺語言模型在局部區(qū)域內(nèi)解析內(nèi)容。雖然這種混合設計在一定程度上提高了可用性,但它尚未充分發(fā)揮視覺語言模型在端到端聯(lián)合推理和統(tǒng)一多任務建模方面的潛力。
HunyuanOCR的秘密武器:一步到位的端到端設計
HunyuanOCR采用了一種完全不同的思路:把整條流水線變成一個"全能選手"。這位全能選手不需要在不同工位之間傳遞接力棒,而是一個人就能完成所有工序。用專業(yè)術語來說,這叫做"端到端"架構。
用一個比喻來理解這個概念,傳統(tǒng)的流水線OCR就像是在餐廳點餐時,你的訂單要經(jīng)過前臺、廚房主管、配菜師、大廚、裝盤師等多個環(huán)節(jié),任何一個環(huán)節(jié)出錯,你的菜都可能不對味。而HunyuanOCR就像是一位全能的私人廚師,從聽你說想吃什么,到采購、備菜、烹飪、裝盤,全部一個人搞定,既高效又不容易出錯。
![]()
HunyuanOCR的架構由三個核心模塊組成,它們協(xié)同工作就像一支默契的三人樂隊。第一位成員是"原生分辨率視覺編碼器",基于SigLIP-v2-400M預訓練模型構建,擁有大約4億參數(shù)。這位成員的特長是"看",它能夠處理任意分辨率的輸入圖像,通過自適應的分塊機制保留原始寬高比。這意味著無論你給它一張又長又窄的文檔截圖,還是一張方方正正的證件照,它都能完整地"看"到所有細節(jié),不會因為強行縮放而丟失信息。
第二位成員是"自適應MLP連接器",它是視覺和語言兩個世界之間的橋梁。想象你有一位翻譯官,能把圖像世界的"語言"翻譯成文字世界的"語言"。這位翻譯官非常聰明,它會對視覺特征進行空間維度的自適應內(nèi)容壓縮,減少冗余信息,同時保留關鍵區(qū)域的重要語義信息,比如文字密集的區(qū)域。
第三位成員是"輕量級語言模型",基于混元0.5B模型構建。雖然只有5億參數(shù),但它內(nèi)置了一項特殊技能,XD-RoPE位置編碼。這項技術將傳統(tǒng)的位置編碼分解為四個獨立的子空間:文本、高度、寬度和時間。這樣的設計建立了一種原生的對齊機制,能夠橋接一維文本序列、二維頁面布局和三維時空信息,使模型能夠處理復雜的布局解析和跨頁文檔分析。
這三位成員加起來,HunyuanOCR總共只有大約10億參數(shù),卻能夠在單次推理中完成整個工作流程。相比那些動輒上百億參數(shù)的大模型,這就像是一輛小排量汽車跑出了超跑的速度,既省油又跑得快。
訓練這位全能選手:從新手到高手的四個階段
一位全能選手不是一天練成的,HunyuanOCR的訓練過程分為四個精心設計的階段。
![]()
第一階段可以叫做"熱身期",主要任務是讓視覺和語言兩個模塊學會"握手"。在這個階段,研究團隊只訓練視覺編碼器和MLP連接器,讓它們學會如何將圖像特征與文本語義對齊。訓練數(shù)據(jù)主要是通用的圖像描述數(shù)據(jù)和合成的OCR數(shù)據(jù),同時保留少量純文本數(shù)據(jù)以維持語言模型的基本能力。這個階段使用了大約500億個token進行訓練。
第二階段是"全面發(fā)展期",所有模型參數(shù)都被解鎖,進行端到端的視覺語言聯(lián)合學習。這個階段的重點是增強模型對文檔、表格、圖表等結構化內(nèi)容的深度理解和認知推理能力。訓練數(shù)據(jù)混合了文本解析、定位、翻譯和視覺問答等多種任務,使用了大約3000億個token。
第三階段是"長跑訓練期",目標是將模型的上下文窗口擴展到32K個token。這就像是讓運動員從短跑轉(zhuǎn)向馬拉松——不僅要跑得快,還要能跑得遠。這個階段使用了長文檔解析任務和長篇純文本數(shù)據(jù),總計約800億個token。
第四階段是"精細打磨期",使用精心策劃的人工標注真實數(shù)據(jù)進行退火訓練。研究團隊采用統(tǒng)一的指令模板和標準化的輸出格式,確保不同任務之間響應模式的一致性。這個階段使用了約240億個token,為后續(xù)的強化學習奠定了堅實基礎。
四個階段加起來,HunyuanOCR使用了大約2億個高質(zhì)量樣本進行訓練,涵蓋了九大真實場景:街景、文檔、廣告、手寫文字、截圖、卡證票據(jù)、游戲界面、視頻幀和藝術字體,支持超過130種語言。
強化學習的魔法:讓模型學會"自我反思"
如果說四階段預訓練是教會HunyuanOCR基本功,那么強化學習階段就是讓它學會"自我反思"和"精益求精"。這是HunyuanOCR的另一大創(chuàng)新,研究團隊首次在業(yè)界證明,強化學習策略能夠在OCR任務中帶來顯著的性能提升。
強化學習的核心思想可以用一個簡單的比喻來理解:想象你在訓練一只寵物狗。當它做對了動作,你就給它一塊小餅干作為獎勵;當它做錯了,就不給獎勵。久而久之,狗狗就學會了哪些行為會得到獎勵,并傾向于做出正確的行為。
HunyuanOCR使用的是一種叫做GRPO的算法,全稱是"群體相對策略優(yōu)化"。在每次訓練迭代中,模型會針對同一個輸入生成多個不同的響應,然后根據(jù)獎勵信號來調(diào)整策略,讓好的響應更容易被生成。
但關鍵問題是:怎么判斷一個響應是"好"還是"不好"呢?研究團隊為不同的任務設計了不同的獎勵機制。對于文字定位任務,獎勵是基于預測框與真實框的重疊程度,以及識別文字與真實文字之間的編輯距離來計算的。這就像是判斷你畫的框有多準、認的字有多對。對于文檔解析任務,獎勵是基于輸出內(nèi)容與參考答案之間的編輯距離來計算的。對于視覺問答任務,獎勵是二元的,答案語義匹配就給1分,不匹配就給0分。對于翻譯任務,研究團隊使用了一個評分模型來比較生成的翻譯與參考翻譯,給出0到5分的評分,然后歸一化到0到1的區(qū)間。
為了確保訓練的穩(wěn)定性,研究團隊還設置了一些約束條件。如果輸出超過了最大長度限制,直接給0分;如果輸出格式不符合要求,也直接給0分。這些約束幫助模型專注于學習準確的推理和格式化行為。
強化學習帶來的效果是顯著的。在文字定位任務中,模型在藝術字和屏幕截圖等場景下的得分提升了2分以上。在文檔解析任務中,OmniDocBench上的得分從92.5提升到了94.1。在信息提取任務中,準確率提升了約2分。在OCRBench上,平均得分提升了3.3分。這些數(shù)字背后,是模型在實際應用中更加可靠和準確的表現(xiàn)。
數(shù)據(jù)的藝術:好廚師需要好食材
在機器學習領域,有句話叫"垃圾進,垃圾出"。再好的模型架構,如果喂給它的數(shù)據(jù)質(zhì)量不高,最終的效果也會大打折扣。HunyuanOCR的成功,很大程度上要歸功于研究團隊在數(shù)據(jù)構建方面下的功夫。
研究團隊建立了一套完整的數(shù)據(jù)生產(chǎn)和清洗流水線,構建了一個包含超過2億個圖文對的語料庫。這些數(shù)據(jù)來源多樣:有公開的基準數(shù)據(jù)集,有通過網(wǎng)絡爬蟲收集的真實數(shù)據(jù),還有使用自研工具生成的高質(zhì)量合成樣本。
合成數(shù)據(jù)的生成是一門藝術。研究團隊基于SynthDog框架進行了擴展,能夠生成支持130多種語言的段落級渲染數(shù)據(jù),并且能夠處理從左到右和從右到左兩種文本方向,以及復雜的連筆書寫風格。更重要的是,這套合成流水線支持對文本屬性的精細控制,字體、顏色、方向都可以調(diào)整,還能模擬各種圖像干擾,比如光照和陰影變化。
為了提高模型的魯棒性,研究團隊還開發(fā)了一套"扭曲合成流水線",專門用于模擬真實拍攝和自然場景中的圖像缺陷。這套流水線可以模擬幾何變形,比如折疊、彎曲和透視畸變;可以添加成像退化效果,比如運動模糊、高斯噪聲和壓縮偽影;還可以模擬光照變化,包括全局和局部的光照變化、陰影和反光。這些增強手段大大提升了模型在文字定位、文檔解析和視覺問答等核心任務上的魯棒性。
在問答對生成方面,研究團隊開發(fā)了一套自動化流水線,能夠?qū)⑼粡垐D片的標注重復利用于多個任務。比如,一張帶有文字定位標注的圖片,可以自動生成相應的視覺問答數(shù)據(jù)。這種"一源多用"的策略大大提高了數(shù)據(jù)利用效率。
HunyuanOCR能做什么:五大核心能力全解析
說了這么多技術細節(jié),HunyuanOCR到底能做什么呢?讓我們來看看它的五大核心能力。
第一項能力是文字定位,這是OCR最基礎的功能。HunyuanOCR能夠精確定位和識別圖片中的文字,輸出行級別的文字內(nèi)容和對應的坐標信息。為了確保輸出格式的統(tǒng)一,研究團隊設計了標準化的輸出格式:用特定標簽包裹識別出的文字內(nèi)容,用另一組標簽包裹文字區(qū)域的坐標信息。所有坐標都被歸一化到0到1000的范圍,以確保不同分辨率圖片之間的一致性。
第二項能力是文檔解析,這是OCR領域的核心能力,隨著大語言模型的快速發(fā)展,其戰(zhàn)略重要性日益凸顯。HunyuanOCR提供了全面的文檔解析方案,支持精細的元素級解析和完整的端到端文檔解析。在元素級解析方面,它能夠獨立識別和提取數(shù)學公式、化學式、表格和圖表等專門的文檔元素,并將它們轉(zhuǎn)換為相應的格式。公式轉(zhuǎn)換為LaTeX,表格轉(zhuǎn)換為HTML,流程圖轉(zhuǎn)換為Mermaid格式。在端到端文檔解析方面,它能夠?qū)Π喾N復雜元素類型的文檔進行整體解析,按照閱讀順序輸出所有文本內(nèi)容,同時智能地將表格和公式轉(zhuǎn)換為相應的格式。
第三項能力是信息提取和視覺問答。在信息提取方面,HunyuanOCR被設計用于開放世界中任意字段的提取,同時針對30多種常見文檔類型進行了精確優(yōu)化,包括身份證、銀行卡、護照、營業(yè)執(zhí)照、駕駛證、購物小票、出租車發(fā)票、火車票等。用戶可以通過自然語言指令進行精細控制,支持單字段提取和多字段并行提取。此外,它還支持視頻字幕提取,能夠從標準視頻截圖中提取字幕內(nèi)容。在視覺問答方面,HunyuanOCR展現(xiàn)了強大的開放域文檔問答能力,能夠處理裁剪的文本行、數(shù)學公式、文檔、圖表和街景圖像等多種輸入格式,并執(zhí)行空間和屬性理解、邏輯推理、數(shù)值計算等復雜任務。
第四項能力是文字圖像翻譯。HunyuanOCR內(nèi)置了一個全面的端到端圖像到文本翻譯模塊,支持14種以上的源語言,包括法語、德語、日語、韓語等,可以翻譯成中文或英文。此外,系統(tǒng)還支持中英文之間的直接雙向翻譯。這個翻譯模塊不僅覆蓋通用翻譯場景,還能處理具有復雜布局的文檔翻譯任務。值得一提的是,HunyuanOCR在ICDAR 2025文檔圖像機器翻譯競賽的小模型賽道中獲得了第一名,證明了其翻譯能力的有效性。
性能表現(xiàn):小模型的大能量
現(xiàn)在到了最激動人心的部分,HunyuanOCR的實際表現(xiàn)如何?讓我們用一系列數(shù)據(jù)來說話。
![]()
在文字定位任務上,研究團隊構建了一個包含九個類別的基準測試集:藝術字、文檔圖像、游戲截圖、手寫文字、廣告場景、卡證票據(jù)、屏幕截圖、街景文字和視頻幀,每個類別包含100張圖片,總計900張。HunyuanOCR在這個測試集上取得了70.92分的綜合成績,大幅領先于傳統(tǒng)的流水線方法和通用視覺語言模型。作為參考,PaddleOCR的得分是53.38分,百度OCR API的得分是61.90分,而參數(shù)量高達235B的Qwen3-VL-235B-A22B-Instruct也只得到了53.62分。
![]()
在文檔解析任務上,HunyuanOCR在公開的OmniDocBench基準測試中取得了94.10分的綜合成績,超越了所有其他模型。在研究團隊自建的Wild-OmniDocBench測試集上,這個測試集通過打印原始文檔并在折疊、彎曲、不同光照等挑戰(zhàn)性條件下重新拍攝,模擬真實世界中的文檔拍攝場景,HunyuanOCR同樣取得了最佳成績85.21分。在多語言解析數(shù)據(jù)集DocML上,HunyuanOCR也展現(xiàn)了優(yōu)秀的多語言解析能力,在全部14種語言上都取得了領先成績。
![]()
在信息提取和視覺問答任務上,HunyuanOCR在卡證信息提取任務上取得了92.29分,在票據(jù)信息提取任務上取得了92.53分,在視頻字幕提取任務上取得了92.87分,全面超越了包括Qwen3-VL-235B-A22B-Instruct、Seed-1.6-Vision和Gemini-2.5-Pro在內(nèi)的大型視覺語言模型。在OCRBench基準測試上,HunyuanOCR取得了860分,與參數(shù)量更大的Qwen3-VL-2B-Instruct相當,顯著優(yōu)于同等規(guī)模的DeepSeek-OCR。
![]()
在文字圖像翻譯任務上,HunyuanOCR在DoTA基準測試的英譯中任務上取得了83.48分的COMET得分,超越了參數(shù)量超過8B的多個模型。雖然由于語言模型規(guī)模相對較小,HunyuanOCR的翻譯能力還不及其在文字檢測、識別和文檔解析方面的表現(xiàn),但研究團隊建議,對于需要更高翻譯精度的應用場景,可以將其多語言解析模塊與混元MT-7B翻譯模型級聯(lián)使用。
至頂AI實驗室洞見
更好的OCR技術意味著更便捷的日常生活,比如,可以把一堆紙質(zhì)文檔拍照上傳,系統(tǒng)能夠完美保留原文檔的格式和結構;把一張復雜的財務報表拍照,系統(tǒng)能夠精確提取出每一個數(shù)字。這些場景正在因為OCR技術的進步而變得越來越現(xiàn)實。
而且HunyuanOCR是開源的,開發(fā)者和企業(yè)可以基于它構建自己的應用,而不必依賴昂貴的商業(yè)API。
HunyuanOCR證明,小模型也能取得優(yōu)秀的表現(xiàn),為邊緣設備部署和移動端應用打開了大門。
不過HunyuanOCR目前還有局限性。由于語言模型規(guī)模相對較小,它在翻譯質(zhì)量上還有提升空間。研究團隊表示,未來將繼續(xù)通過token壓縮和架構改進來優(yōu)化推理效率,同時擴展模型處理更高分辨率和多頁文檔的能力。他們的長期目標是讓HunyuanOCR適配邊緣設備部署,進一步普及強大的OCR能力。
論文地址:https://arxiv.org/abs/2511.19575v1
本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創(chuàng)新與突破,挖掘其潛在的應用場景,為企業(yè)和個人提供切實可行的解決方案。
Q&A
Q1:HunyuanOCR的參數(shù)量只有1B,為什么能比235B的大模型表現(xiàn)更好?
A:HunyuanOCR的成功主要歸功于三個因素:端到端的架構設計避免了傳統(tǒng)流水線的錯誤傳播問題;精心策劃的高質(zhì)量訓練數(shù)據(jù)涵蓋了130多種語言和九大真實場景;以及首創(chuàng)的強化學習策略為OCR任務提供了針對性的優(yōu)化。
Q2:普通用戶可以在哪里使用HunyuanOCR?
A:HunyuanOCR已經(jīng)在HuggingFace上開源,開發(fā)者可以通過GitHub下載使用。研究團隊還提供了基于vLLM的高性能部署方案,適合有技術背景的用戶和企業(yè)進行二次開發(fā)和集成。
Q3:HunyuanOCR支持中文識別嗎?
A:支持。HunyuanOCR是一個多語言模型,支持超過130種語言的識別和處理,中文是其重點優(yōu)化的語言之一。無論是簡體中文、繁體中文,還是中英混排的文檔,它都能夠有效處理。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.