![]()
一、引言
在生成式 AI 浪潮中,文生圖技術已實現跨越式發展,在視覺呈現上達到了前所未有的高度。然而,在生成圖像中準確合成拼寫正確、結構規范且風格協調的文字 ——視覺文本渲染(Visual Text Rendering, VTR),至今仍是該領域尚未攻克的核心難題。
即便是當前最先進的文生圖模型(如 Nano Banana,Seedream、Qwen-Image),也難以穩定生成結構忠實的文本,常伴有筆畫錯位、結構畸變與字符缺失等問題,在中文等字形結構復雜的語言中表現尤為明顯。這一短板直接制約了 AIGC 技術在海報設計、廣告創意、圖文排版及電商場景等高價值商業領域的規模化落地。
針對這一難題,華中科技大學白翔教授團隊等提出了TextPecker,一個為視覺文本而生的「啄木鳥」。該方法是一種基于結構感知的即插即用型強化學習優化策略,無需修改底層模型即可靈活適配各類主流生成器,并帶來顯著的性能增益:搭載 TextPecker 后,FLUX 的語義對齊度與結構保真度分別提升了 +38.3% 和 +31.6%;即便面對已為中文場景高度優化的 Qwen-Image,仍取得了 +8.7% 和 +4.0% 的顯著增益,將視覺文本渲染推向了全新 SOTA。
目前,該工作已被 CVPR 2026 接收。
![]()
- 論文標題:TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering
- 論文鏈接:https://arxiv.org/pdf/2602.20903
- 代碼鏈接:https://github.com/CIawevy/TextPecker
二、當「裁判」失靈:評估與優化的雙重瓶頸
TextPecker 的核心洞察在于:制約視覺文本渲染質量的瓶頸,并非生成模型本身的能力上限,而是優化流程中負責評估文字質量的「裁判」存在根本性缺陷。
當前主流范式普遍采用強化學習(RL)后訓練來提升模型的文字生成能力,并依賴 OCR 模型或多模態大模型(MLLM)作為獎勵信號的來源。然而,研究團隊發現,這些評估模型缺乏對文字結構異常的細粒度感知能力,在面對不完美的生成文字時,表現出兩類典型失效模式:
- 語言先驗驅動的「幻覺」(Hallucination):評估模型過渡依賴語言先驗,將結構錯誤的文字自動 "腦補" 為正確字符,從而給出虛高的獎勵分數。
- 低置信區域的「失明」(Invisibility):評估模型對嚴重模糊或畸變的文字區域直接跳過識別,導致關鍵渲染錯誤被完全遺漏。
![]()
圖 1 現有 OCR 模型與多模態大模型難以感知生成文字中的細粒度結構異常,成為 VTR 評估與強化學習優化的關鍵瓶頸。紅色標注為誤識別字符。
這兩類失效直接導致強化學習的獎勵信號中混入大量噪聲,模型無法獲得細粒度的結構級反饋,構成了當前 VTR 評估與優化的雙重瓶頸。
三、結構感知的「好裁判」:TextPecker 方法詳解
1. 重新定義「好」的標準:結構感知的復合獎勵
TextPecker 基于 Flow-GRPO 框架構建,是一種即插即用的強化學習優化策略。其核心改進在于重新定義獎勵函數:引入一個具備細粒度結構異常感知能力的評估模塊,替代傳統的 OCR 編輯距離信號,從結構質量與語義對齊兩個維度同時評估生成文字的質量。
![]()
圖 2:TextPecker 方法整體框架
![]()
![]()
![]()
以往方法簡單地將生成文本視為一條長字符串,直接與目標文本計算編輯距離。這種方式隱含一個假設:生成文字的排列順序與 Prompt 完全一致。但在真實渲染場景中,文字的空間布局未必與 Prompt 中的出現順序一致
![]()
![]()
![]()
最終,TextPecker 將結構質量與語義對齊兩個維度的分數通過加權融合構成復合獎勵。這一設計使得優化過程不再僅僅追求「文字內容對不對」,而是同時關注 「文字結構好不好」,實現二者的聯合優化。
2. 打造「好裁判」:字符級結構異常數據集的構建
上述復合獎勵的有效性,取決于一個前提:結構感知評估模塊能夠準確識別生成文字中的細粒度結構異常。而訓練這樣的模塊,首先面臨一個基礎性難題 ——缺乏大規模、帶有字符級結構異常標注的高質量數據。為此,TextPecker 設計了一套系統化的三階段數據構建流程(如圖 3 所示)。
![]()
圖 3 TextPecker 數據構建流程概覽
階段一:大規模多樣化富文本圖像生成
由于不同生成模型產生的結構錯誤各有特點,單一模型的輸出難以反映真實場景下錯誤類型的多樣性。因此,第一階段的核心策略是多模型、多來源的交叉生成。
具體而言,團隊針對中英文場景分別設計了數據生成方案:
- 英文場景:從 TextAtlas5M、Lex-10k 等數據集中采樣 Prompt,分別調用 AnyText、Stable Diffusion v1-5、Stable Diffusion 3.5、Flux.1-dev、Seedream 3.0、Qwen-Image 等多種主流生成模型進行圖像合成,確保對錯誤類型與生成風格的廣泛覆蓋。
- 中文場景:首先從萬卷 1.0 語料庫中采樣文本,確保對現代漢語常用字的充分覆蓋。在此基礎上,利用 Qwen3-235B-A22B 針對不同字體風格生成風格化描述,與語料組合構成最終的 Prompt,驅動 CogView4、Kolors、Seedream、Qwen-Image 等模型合成圖像,兼顧多種字體風格下的結構錯誤表現。
階段二:高成本的字符級結構異常精標注
獲取富文本圖像后,研究團隊投入了大量人工標注資源,對數據進行字符級的結構異常檢查。這里,結構異常被定義為:任何因模糊、扭曲、筆畫缺失或冗余偽影導致的結構性失真,使得字符的語義可識別性受損。
具體的標注流程分為兩步:首先利用 OCR 模型獲取初步識別結果,再由標注人員逐字符檢查并以特殊標記標注所有結構缺陷(如圖 4 所示)。對于結構嚴重粘連、無法逐字區分的區域,則采用統一占位符標記。這一階段將監督粒度細化至單字符的結構完整性層面,為結構感知評估模塊的訓練提供了精確的字符級監督信號。
![]()
圖 4 TextPecker 數據集可視化
階段三:基于筆畫編輯的合成數據增強
僅依賴階段二人工標注的數據訓練模型存在局限:對未見異常類型的泛化能力不足,且對標準漢字的識別能力下降。其原因在于中文的固有復雜性:不同于英文字母的線性形態,漢字具有二維空間構成且規模龐大(常用字超過 8000),潛在的結構異常類型呈組合爆炸式增長,遠超人工標注所能窮舉。
為此,團隊設計了一套基于筆畫編輯的程序化合成流程。利用公開筆順數據將漢字表示為有序筆畫序列,并在此基礎上定義三種筆畫級結構編輯算子:
- 筆畫刪除(Stroke Deletion):隨機移除部分筆畫,模擬缺失類錯誤
- 筆畫交換(Stroke Swapping):交換筆畫間的空間位置,模擬錯位類錯誤
- 筆畫插入(Stroke Insertion):從其他字符中取出筆畫插入當前字符,模擬冗余類錯誤
關鍵在于,這三種算子并非獨立使用,而是按順序隨機組合疊加,從而能夠模擬遠比單一編輯更復雜、更貼近真實生成錯誤的結構異常類型。在此基礎上,團隊自研了一套基于 SynthTIGER 的文本渲染引擎,將生成的異常字符與規范字符放置到多樣化的背景與排版布局中,合成最終的富文本圖像(如圖 4 所示)。最終,將階段二的人工標注數據與本階段的合成數據合并,形成訓練集與測試集,數據集統計與分布詳見圖 5。
![]()
圖 5 TextPecker 數據集統計
結構感知評估模塊的訓練
基于上述數據集,研究團隊對 Qwen3-VL 與 InternVL-3 進行監督微調(SFT),得到最終的結構感知評估模塊,為強化學習提供結構級獎勵信號。
四、從感知評估到跨模型生成優化:TextPecker 實驗全景
1. 結構異常感知能力:現有模型近乎失靈,TextPecker 大幅領先
團隊設計了兩項專用評測任務:文本結構異常感知(TSAP)和規范文本識別(CTR),系統檢驗模型對生成文本中細粒度結構缺陷的辨識能力。結果揭示了一個嚴峻事實:無論是專業 OCR 模型(PP-OCRv5、GOT-OCR-2.0、MonkeyOCR 等)還是頂尖多模態大模型(GPT-5、Gemini-2.5-Pro 等),在 TSAP 任務上的 F1 均不超過 0.23,部分模型甚至完全無法檢出異常字符。
相比之下,TextPecker 在英文和中文 TSAP 上分別取得0.87和0.93的 F1 值,同時在 CTR 上也顯著優于基線模型,驗證了其結構感知能力的全面優勢。
![]()
圖 6 現有模型在文本結構異常感知(TSAP)與規范文本識別(CTR)任務上的表現對比。TextPecker 在所有維度上大幅領先。
2. VTR 生成優化:跨模型、跨語言的一致性提升
團隊在 SD3.5-M、Flux.1 [dev]、Qwen-Image 三個生成模型上進行了 RL 優化實驗,覆蓋 OneIG-Bench、LongText-Bench、CVTG-2K 及自建 GenTextEval 四個基準。
結果顯示,TextPecker 獎勵信號在所有配置下均帶來一致提升。以 Flux.1 [dev] 英文生成為例,語義對齊(Sem.)和結構質量(Qua.)分別提升 +38.3% 和 +31.6%,同時在語義維度上超越 OCR 獎勵基線 +11.7%。
更具說服力的是,即便在已經對文字生成高度優化的 Qwen-Image 上,TextPecker 在中文渲染任務中仍實現了+8.7% Sem.和+4.0% Qua.的顯著增益,刷新了高保真 VTR 的 SOTA。
![]()
圖 7 TextPecker 在三大主流模型上的定量結果對比。
3. 定性對比:從「語義接近」到「結構忠實」的質變
原始 Qwen-Image 在小字、密集排版等高難場景中頻繁出現模糊、扭曲與錯位;基于 OCR 獎勵的 RL 優化雖改善了語義一致性,但結構缺陷依然存在。而 TextPecker 驅動的優化則在結構保真與語義準確兩個維度實現了同步提升:以論文中的「英文菜單」和「中文論文」渲染案例為例,文字筆畫清晰、行列對齊,結構畸變問題得到有效消除。
![]()
圖 8 TextPecker 顯著改善了 Qwen-Image 的文字渲染質量,定性對比。
4. 消融實驗:數據構建與獎勵設計的協同效應
研究團隊通過兩組消融實驗驗證了方法各組件的貢獻(如圖 9、圖 10 所示):
- 數據有效性:僅用人工標注數據即可在 TSAP 上大幅超越基線,但中文識別出現下降;加入合成數據后中文性能全面恢復,TSAP 性能進一步提升,驗證了筆畫編輯引擎的必要性。
- 獎勵設計:逐步疊加詞級匹配(PM)與結構質量分數,每一組件均帶來增量收益;將 OCR 獎勵替換為 TextPecker 獎勵后語義與結構同步提升,完整獎勵設計達到最優綜合性能。
![]()
圖 9 數據組成消融實驗
![]()
圖 10 獎勵設計消融實驗
5. 補充實驗:從跨模型泛化到多獎勵協同下的魯棒優化
除主實驗外,研究團隊在論文附錄中提供了兩組補充實驗,從不同角度進一步驗證了 TextPecker 的泛化能力與實用潛力。
- 評估器的跨模型泛化驗證
TextPecker 評估器是否僅對訓練中涉及的生成模型有效?為此,團隊選取訓練過程中從未接觸過的 Nano Banana(Gemini-2.5-flash-image) 作為測試對象,在常規渲染、極端藝術字、低對比度排版三種遞進難度下進行驗證(見圖 11)。結果顯示,TextPecker 在未見過的生成模型上依然保持強勁的結構感知能力,常規與低對比度條件下表現尤為穩健;性能衰減主要出現在極端藝術化字體場景,此時藝術變形與真實結構缺陷的界限趨于模糊,也為后續研究指出了明確方向。
![]()
圖 11 TextPecker 的跨模型泛化表現
- 多獎勵協同下的增強 RL 優化
主實驗中 TextPecker 僅使用文本渲染獎勵,單一目標在實際應用中不可避免地會影響圖像美學質量。
為此,團隊構建了增強 RL 框架:訓練層面引入 Flow-GRPO-Fast、GRPO-Guard 及 Velocity KL 正則化以提升穩定性;獎勵層面將 TextPecker 與 PickScore、Aesthetic Score 組合為多目標獎勵,兼顧文字準確性與畫面美學。實驗覆蓋三個模型在 7 個英文基準和 3 個中文基準上的完整評測。
結果顯示,TextPecker 在多獎勵體系中的提升與主實驗一致甚至更為顯著,在中英文場景下均取得了大幅度的質量與語義雙重增益,驗證了其獎勵信號與其他優化目標的兼容性,也表明 TextPecker 具備產品級優化流程的落地潛力。
![]()
圖 12 TextPecker 在多獎勵協同優化下提升依然顯著(中文)
![]()
圖 13 TextPecker 在多獎勵協同優化下提升依然顯著(英文)
![]()
圖 14 Qwen-Image 經 TextPecker 多獎勵協同優化后,文字保真度與畫面美學實現良好平衡
五、總結:從結構感知到可信賴的視覺文本生成
TextPecker 揭示了制約視覺文本渲染質量的關鍵瓶頸 —— 現有評估模型無法感知生成文字中的細粒度結構異常,并圍繞這一問題給出了完整的解決方案:構建字符級結構異常數據集訓練專用評估器,設計兼顧語義對齊與結構質量的復合獎勵函數,以即插即用的方式為主流生成模型提供結構級優化信號。
實驗表明,該方法在所有測試模型上均帶來一致提升,將高保真視覺文本渲染推向了新的水平。
從更宏觀的視角看,可靠的文字渲染能力是多模態 AI 走向真實應用的關鍵基礎設施,從 AI Agent 自主生成海報文檔,到多模態大模型輸出含文字的視覺內容,都以此為前提。TextPecker 為這一方向提供了基礎性的評估工具與優化范式。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.