網易首頁 > 網易號 > 正文申請入駐

還在為AI「鬼畫符」發愁？TextPecker即插即用破解文字渲染難題

2026-03-11 18:03:34　來源: 機器之心Pro

河北舉報

分享至

一、引言

在生成式 AI 浪潮中，文生圖技術已實現跨越式發展，在視覺呈現上達到了前所未有的高度。然而，在生成圖像中準確合成拼寫正確、結構規范且風格協調的文字 ——視覺文本渲染（Visual Text Rendering, VTR），至今仍是該領域尚未攻克的核心難題。

即便是當前最先進的文生圖模型（如 Nano Banana，Seedream、Qwen-Image），也難以穩定生成結構忠實的文本，常伴有筆畫錯位、結構畸變與字符缺失等問題，在中文等字形結構復雜的語言中表現尤為明顯。這一短板直接制約了 AIGC 技術在海報設計、廣告創意、圖文排版及電商場景等高價值商業領域的規模化落地。

針對這一難題，華中科技大學白翔教授團隊等提出了TextPecker，一個為視覺文本而生的「啄木鳥」。該方法是一種基于結構感知的即插即用型強化學習優化策略，無需修改底層模型即可靈活適配各類主流生成器，并帶來顯著的性能增益：搭載 TextPecker 后，FLUX 的語義對齊度與結構保真度分別提升了 +38.3% 和 +31.6%；即便面對已為中文場景高度優化的 Qwen-Image，仍取得了 +8.7% 和 +4.0% 的顯著增益，將視覺文本渲染推向了全新 SOTA。

目前，該工作已被 CVPR 2026 接收。

論文標題：TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering
論文鏈接：https://arxiv.org/pdf/2602.20903
代碼鏈接：https://github.com/CIawevy/TextPecker

二、當「裁判」失靈：評估與優化的雙重瓶頸

TextPecker 的核心洞察在于：制約視覺文本渲染質量的瓶頸，并非生成模型本身的能力上限，而是優化流程中負責評估文字質量的「裁判」存在根本性缺陷。

當前主流范式普遍采用強化學習（RL）后訓練來提升模型的文字生成能力，并依賴 OCR 模型或多模態大模型（MLLM）作為獎勵信號的來源。然而，研究團隊發現，這些評估模型缺乏對文字結構異常的細粒度感知能力，在面對不完美的生成文字時，表現出兩類典型失效模式：

語言先驗驅動的「幻覺」（Hallucination）：評估模型過渡依賴語言先驗，將結構錯誤的文字自動 "腦補" 為正確字符，從而給出虛高的獎勵分數。
低置信區域的「失明」（Invisibility）：評估模型對嚴重模糊或畸變的文字區域直接跳過識別，導致關鍵渲染錯誤被完全遺漏。

圖 1 現有 OCR 模型與多模態大模型難以感知生成文字中的細粒度結構異常，成為 VTR 評估與強化學習優化的關鍵瓶頸。紅色標注為誤識別字符。

這兩類失效直接導致強化學習的獎勵信號中混入大量噪聲，模型無法獲得細粒度的結構級反饋，構成了當前 VTR 評估與優化的雙重瓶頸。

三、結構感知的「好裁判」：TextPecker 方法詳解

1. 重新定義「好」的標準：結構感知的復合獎勵

TextPecker 基于 Flow-GRPO 框架構建，是一種即插即用的強化學習優化策略。其核心改進在于重新定義獎勵函數：引入一個具備細粒度結構異常感知能力的評估模塊，替代傳統的 OCR 編輯距離信號，從結構質量與語義對齊兩個維度同時評估生成文字的質量。

圖 2：TextPecker 方法整體框架

以往方法簡單地將生成文本視為一條長字符串，直接與目標文本計算編輯距離。這種方式隱含一個假設：生成文字的排列順序與 Prompt 完全一致。但在真實渲染場景中，文字的空間布局未必與 Prompt 中的出現順序一致

最終，TextPecker 將結構質量與語義對齊兩個維度的分數通過加權融合構成復合獎勵。這一設計使得優化過程不再僅僅追求「文字內容對不對」，而是同時關注「文字結構好不好」，實現二者的聯合優化。

2. 打造「好裁判」：字符級結構異常數據集的構建

上述復合獎勵的有效性，取決于一個前提：結構感知評估模塊能夠準確識別生成文字中的細粒度結構異常。而訓練這樣的模塊，首先面臨一個基礎性難題 ——缺乏大規模、帶有字符級結構異常標注的高質量數據。為此，TextPecker 設計了一套系統化的三階段數據構建流程（如圖 3 所示）。

圖 3 TextPecker 數據構建流程概覽

階段一：大規模多樣化富文本圖像生成

由于不同生成模型產生的結構錯誤各有特點，單一模型的輸出難以反映真實場景下錯誤類型的多樣性。因此，第一階段的核心策略是多模型、多來源的交叉生成。

具體而言，團隊針對中英文場景分別設計了數據生成方案：

英文場景：從 TextAtlas5M、Lex-10k 等數據集中采樣 Prompt，分別調用 AnyText、Stable Diffusion v1-5、Stable Diffusion 3.5、Flux.1-dev、Seedream 3.0、Qwen-Image 等多種主流生成模型進行圖像合成，確保對錯誤類型與生成風格的廣泛覆蓋。
中文場景：首先從萬卷 1.0 語料庫中采樣文本，確保對現代漢語常用字的充分覆蓋。在此基礎上，利用 Qwen3-235B-A22B 針對不同字體風格生成風格化描述，與語料組合構成最終的 Prompt，驅動 CogView4、Kolors、Seedream、Qwen-Image 等模型合成圖像，兼顧多種字體風格下的結構錯誤表現。

階段二：高成本的字符級結構異常精標注

獲取富文本圖像后，研究團隊投入了大量人工標注資源，對數據進行字符級的結構異常檢查。這里，結構異常被定義為：任何因模糊、扭曲、筆畫缺失或冗余偽影導致的結構性失真，使得字符的語義可識別性受損。

具體的標注流程分為兩步：首先利用 OCR 模型獲取初步識別結果，再由標注人員逐字符檢查并以特殊標記標注所有結構缺陷（如圖 4 所示）。對于結構嚴重粘連、無法逐字區分的區域，則采用統一占位符標記。這一階段將監督粒度細化至單字符的結構完整性層面，為結構感知評估模塊的訓練提供了精確的字符級監督信號。

圖 4 TextPecker 數據集可視化

階段三：基于筆畫編輯的合成數據增強

僅依賴階段二人工標注的數據訓練模型存在局限：對未見異常類型的泛化能力不足，且對標準漢字的識別能力下降。其原因在于中文的固有復雜性：不同于英文字母的線性形態，漢字具有二維空間構成且規模龐大（常用字超過 8000），潛在的結構異常類型呈組合爆炸式增長，遠超人工標注所能窮舉。

為此，團隊設計了一套基于筆畫編輯的程序化合成流程。利用公開筆順數據將漢字表示為有序筆畫序列，并在此基礎上定義三種筆畫級結構編輯算子：

筆畫刪除（Stroke Deletion）：隨機移除部分筆畫，模擬缺失類錯誤
筆畫交換（Stroke Swapping）：交換筆畫間的空間位置，模擬錯位類錯誤
筆畫插入（Stroke Insertion）：從其他字符中取出筆畫插入當前字符，模擬冗余類錯誤

關鍵在于，這三種算子并非獨立使用，而是按順序隨機組合疊加，從而能夠模擬遠比單一編輯更復雜、更貼近真實生成錯誤的結構異常類型。在此基礎上，團隊自研了一套基于 SynthTIGER 的文本渲染引擎，將生成的異常字符與規范字符放置到多樣化的背景與排版布局中，合成最終的富文本圖像（如圖 4 所示）。最終，將階段二的人工標注數據與本階段的合成數據合并，形成訓練集與測試集，數據集統計與分布詳見圖 5。

圖 5 TextPecker 數據集統計

結構感知評估模塊的訓練

基于上述數據集，研究團隊對 Qwen3-VL 與 InternVL-3 進行監督微調（SFT），得到最終的結構感知評估模塊，為強化學習提供結構級獎勵信號。

四、從感知評估到跨模型生成優化：TextPecker 實驗全景

1. 結構異常感知能力：現有模型近乎失靈，TextPecker 大幅領先

團隊設計了兩項專用評測任務：文本結構異常感知（TSAP）和規范文本識別（CTR），系統檢驗模型對生成文本中細粒度結構缺陷的辨識能力。結果揭示了一個嚴峻事實：無論是專業 OCR 模型（PP-OCRv5、GOT-OCR-2.0、MonkeyOCR 等）還是頂尖多模態大模型（GPT-5、Gemini-2.5-Pro 等），在 TSAP 任務上的 F1 均不超過 0.23，部分模型甚至完全無法檢出異常字符。

相比之下，TextPecker 在英文和中文 TSAP 上分別取得0.87和0.93的 F1 值，同時在 CTR 上也顯著優于基線模型，驗證了其結構感知能力的全面優勢。

圖 6 現有模型在文本結構異常感知（TSAP）與規范文本識別（CTR）任務上的表現對比。TextPecker 在所有維度上大幅領先。

2. VTR 生成優化：跨模型、跨語言的一致性提升

團隊在 SD3.5-M、Flux.1 [dev]、Qwen-Image 三個生成模型上進行了 RL 優化實驗，覆蓋 OneIG-Bench、LongText-Bench、CVTG-2K 及自建 GenTextEval 四個基準。

結果顯示，TextPecker 獎勵信號在所有配置下均帶來一致提升。以 Flux.1 [dev] 英文生成為例，語義對齊（Sem.）和結構質量（Qua.）分別提升 +38.3% 和 +31.6%，同時在語義維度上超越 OCR 獎勵基線 +11.7%。

更具說服力的是，即便在已經對文字生成高度優化的 Qwen-Image 上，TextPecker 在中文渲染任務中仍實現了+8.7% Sem.和+4.0% Qua.的顯著增益，刷新了高保真 VTR 的 SOTA。

圖 7 TextPecker 在三大主流模型上的定量結果對比。

3. 定性對比：從「語義接近」到「結構忠實」的質變

原始 Qwen-Image 在小字、密集排版等高難場景中頻繁出現模糊、扭曲與錯位；基于 OCR 獎勵的 RL 優化雖改善了語義一致性，但結構缺陷依然存在。而 TextPecker 驅動的優化則在結構保真與語義準確兩個維度實現了同步提升：以論文中的「英文菜單」和「中文論文」渲染案例為例，文字筆畫清晰、行列對齊，結構畸變問題得到有效消除。

圖 8 TextPecker 顯著改善了 Qwen-Image 的文字渲染質量，定性對比。

4. 消融實驗：數據構建與獎勵設計的協同效應

研究團隊通過兩組消融實驗驗證了方法各組件的貢獻（如圖 9、圖 10 所示）：

數據有效性：僅用人工標注數據即可在 TSAP 上大幅超越基線，但中文識別出現下降；加入合成數據后中文性能全面恢復，TSAP 性能進一步提升，驗證了筆畫編輯引擎的必要性。
獎勵設計：逐步疊加詞級匹配（PM）與結構質量分數，每一組件均帶來增量收益；將 OCR 獎勵替換為 TextPecker 獎勵后語義與結構同步提升，完整獎勵設計達到最優綜合性能。

圖 9 數據組成消融實驗

圖 10 獎勵設計消融實驗

5. 補充實驗：從跨模型泛化到多獎勵協同下的魯棒優化

除主實驗外，研究團隊在論文附錄中提供了兩組補充實驗，從不同角度進一步驗證了 TextPecker 的泛化能力與實用潛力。

評估器的跨模型泛化驗證

TextPecker 評估器是否僅對訓練中涉及的生成模型有效？為此，團隊選取訓練過程中從未接觸過的 Nano Banana（Gemini-2.5-flash-image）作為測試對象，在常規渲染、極端藝術字、低對比度排版三種遞進難度下進行驗證（見圖 11）。結果顯示，TextPecker 在未見過的生成模型上依然保持強勁的結構感知能力，常規與低對比度條件下表現尤為穩健；性能衰減主要出現在極端藝術化字體場景，此時藝術變形與真實結構缺陷的界限趨于模糊，也為后續研究指出了明確方向。

圖 11 TextPecker 的跨模型泛化表現

多獎勵協同下的增強 RL 優化

主實驗中 TextPecker 僅使用文本渲染獎勵，單一目標在實際應用中不可避免地會影響圖像美學質量。

為此，團隊構建了增強 RL 框架：訓練層面引入 Flow-GRPO-Fast、GRPO-Guard 及 Velocity KL 正則化以提升穩定性；獎勵層面將 TextPecker 與 PickScore、Aesthetic Score 組合為多目標獎勵，兼顧文字準確性與畫面美學。實驗覆蓋三個模型在 7 個英文基準和 3 個中文基準上的完整評測。

結果顯示，TextPecker 在多獎勵體系中的提升與主實驗一致甚至更為顯著，在中英文場景下均取得了大幅度的質量與語義雙重增益，驗證了其獎勵信號與其他優化目標的兼容性，也表明 TextPecker 具備產品級優化流程的落地潛力。

圖 12 TextPecker 在多獎勵協同優化下提升依然顯著（中文）

圖 13 TextPecker 在多獎勵協同優化下提升依然顯著（英文）

圖 14 Qwen-Image 經 TextPecker 多獎勵協同優化后，文字保真度與畫面美學實現良好平衡

五、總結：從結構感知到可信賴的視覺文本生成

TextPecker 揭示了制約視覺文本渲染質量的關鍵瓶頸 —— 現有評估模型無法感知生成文字中的細粒度結構異常，并圍繞這一問題給出了完整的解決方案：構建字符級結構異常數據集訓練專用評估器，設計兼顧語義對齊與結構質量的復合獎勵函數，以即插即用的方式為主流生成模型提供結構級優化信號。

實驗表明，該方法在所有測試模型上均帶來一致提升，將高保真視覺文本渲染推向了新的水平。

從更宏觀的視角看，可靠的文字渲染能力是多模態 AI 走向真實應用的關鍵基礎設施，從 AI Agent 自主生成海報文檔，到多模態大模型輸出含文字的視覺內容，都以此為前提。TextPecker 為這一方向提供了基礎性的評估工具與優化范式。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.