網易首頁 > 網易號 > 正文申請入駐

港大趙恒爽團隊論文：讓擴散模型既拿高分又不「作弊」丨CVPR 2026

2026-03-17 18:46:44　來源: AI科技評論

廣東舉報

分享至

GDRO：一種通過組級獎勵排序優化擴散模型生成能力的后訓練方法。

作者丨鄭佳美

編輯丨岑峰

現如今，擴散模型已經成為當前圖像生成領域的核心技術之一。從文本生成圖像到復雜視覺內容合成，這類模型已經能夠生成高度逼真的畫面。然而，在真實應用場景中，人們對生成模型的要求并不僅僅是“生成逼真圖像”，而是希望模型能夠嚴格按照提示完成特定任務。

例如，在要求生成包含指定文字的圖像時，模型可能 simply 將文字放大到占據畫面大部分區域，從而輕松獲得 OCR 系統的高分，而在需要生成多個對象的任務中，模型也可能通過極度簡化場景結構來滿足評分規則。這種現象通常被稱為“獎勵作弊”，已經成為當前生成模型對齊研究中的一個重要挑戰。

為了解決這一問題，近年來一些研究開始嘗試利用強化學習或獎勵機制對擴散模型進行后訓練，希望通過獎勵信號引導模型生成更加符合任務要求的內容。然而實踐中逐漸發現，這種方法容易帶來一個新的問題：模型可能學會迎合評價指標，而不是理解任務本身。

在這樣的研究背景下，香港大學趙恒爽團隊提出了一種新的擴散模型后訓練方法，并在論文《GDRO: Group-level Reward Post-training Suitable for Diffusion Models》中系統探討了這一問題。研究通過引入組級獎勵優化機制對擴散模型進行后訓練，在提升模型任務表現的同時有效緩解獎勵作弊問題，并且還可以顯著提高訓練效率。

更重要的，這一方法在實際應用中也具有明顯的工程價值。傳統的在線強化學習方法通常需要在每一次優化步驟中重新執行完整的擴散采樣過程來生成圖像，這意味著模型需要不斷運行完整的擴散鏈進行圖像生成，在線采樣往往成為訓練過程中最主要的時間和計算開銷。

相比之下，GDRO 支持完全離線的訓練方式，在訓練開始之前先生成并保存帶有評分信息的圖像數據，之后的優化過程無需再依賴擴散采樣，從而避免了重復執行擴散鏈帶來的巨大計算成本。同時，這個方法也不依賴特定的擴散采樣器，不需要通過 ODE 到 SDE 的近似來引入隨機性，使訓練流程更加簡單穩定。

對于工業界而言，這意味著企業可以在不顯著增加算力投入的情況下，對大規模擴散模型進行后訓練優化，從而以更低的計算資源消耗提升模型表現。

論文地址：https://arxiv.org/pdf/2601.02036

不僅得分更高，還能避免「獎勵作弊」

不僅得分更高，還能避免「獎勵作弊」

在實驗結果方面，研究主要從模型任務表現、獎勵作弊現象以及訓練效率等多個方面進行了分析。

整體結果表明，GDRO 不僅能夠提升擴散模型在相關任務中的評分表現，還可以明顯減少獎勵作弊問題，同時在訓練效率和穩定性方面也具有優勢。研究人員主要通過兩個任務來評估模型能力，分別是 OCR 任務和 GenEval 任務。

OCR 任務用于測試圖像中生成文字的準確性。具體流程是：首先向模型輸入一個提示詞，例如 “ 一個廣告牌，上面寫著 diamond sale ”或者“ 一張卡片寫著 we meet never ”；隨后擴散模型根據提示詞生成圖片；接著 OCR 系統讀取圖片中的文字；如果 OCR 識別出的文字與提示詞中的內容一致，則會獲得較高評分。

實驗觀察發現，原始模型生成的文字經常出現多種問題，例如拼寫錯誤、字體模糊、字符缺失以及排列混亂。有些圖片中的文字還會出現明顯傾斜或不完整的情況，導致 OCR 識別系統無法正確識別。經過 GDRO 訓練之后，生成圖片中的文字更加清晰，文字排版更加規范，OCR 識別的準確率也明顯提高。

除了 OCR 任務，研究還通過 GenEval 任務評估模型對文本描述的理解能力。GenEval 任務主要關注四個方面的能力：物體數量是否正確、物體屬性是否正確（例如顏色和類別）、物體之間的位置關系是否正確，以及圖像整體是否符合文本描述。

例如提示詞可能包括 “一張黃色餐桌和一只粉色狗” “一個筆記本電腦在球下面” “兩輛火車” “一個酒杯和一只熊” 等。評測系統會進一步檢查生成圖像中是否確實包含指定對象、對象數量是否符合描述、對象之間的位置關系是否正確。實驗結果顯示，在使用 GDRO 訓練之后，圖像中的對象數量更加準確，對象之間的位置關系更加符合提示描述，對象屬性匹配也更加穩定。

在分析實驗結果的過程中，研究人員還發現了一個非常重要的問題，即獎勵作弊現象。所謂獎勵作弊，是指模型為了獲得更高評分，并沒有真正提高生成圖像的質量，而是通過某種投機方式去欺騙評分系統。

在 OCR 任務中，一些強化學習方法（例如 Flow - GRPO ）在訓練過程中會采取某些極端策略來提高 OCR 評分，例如把目標文字做得非常大，將文字放在圖像中央位置，同時減少圖像中的背景內容。這樣 OCR 系統更容易識別文字，因此評分會很高。但這種策略會帶來明顯問題，包括圖像整體變得不自然、背景細節消失以及圖像結構被破壞。例如原本應該是一個復雜的地圖場景，但最終生成結果卻變成了一個巨大橫幅。圖像示例顯示，一些方法雖然獲得更高 OCR 評分，但圖像細節明顯減少。

在 GenEval 任務中也存在類似的獎勵作弊現象。一些方法生成的圖像會變得非常簡單，只保留最基本的對象，同時幾乎沒有任何細節。例如在提示詞為“一個綠色熱狗”的情況下，一些方法生成的圖像只有一個簡單的圖形，背景幾乎為空。雖然對象類型正確，但整體圖像質量明顯下降。相比之下，使用 GDRO 訓練后的模型生成圖像通常仍然保持完整場景，同時能夠滿足評分系統的要求，從而減少了這種獎勵作弊現象。

為了進一步驗證自動評分系統的可靠性，研究團隊還進行了人工評估實驗。實驗邀請了 21 名參與者，對不同方法生成的圖片進行比較評價。

評價主要從三個方面進行，包括文字準確性、圖像與提示詞之間的匹配程度以及圖像整體質量。每組圖片中同時包含原始模型生成結果、GDRO 生成結果以及其他強化學習方法生成結果，參與者需要從這些圖片中選擇表現更好的結果。實驗結果顯示，在文字準確性方面，各種方法之間的差距并不明顯，但在圖像質量以及語義匹配方面，GDRO 生成的圖像表現明顯更好。

此外，研究還比較了不同方法在訓練效率方面的表現。傳統強化學習方法在訓練擴散模型時，每一步訓練通常都需要完成三個步驟，即生成新的圖片、計算獎勵以及更新模型。由于擴散模型生成圖片本身計算成本較高，這種訓練方式往往需要大量時間和計算資源。

GDRO 則采用離線訓練方式，在訓練開始之前先生成數據，然后在訓練過程中反復使用這些數據。實驗結果顯示，在達到相似性能水平時，GDRO 所需的訓練時間明顯更短，并且在某些任務中訓練效率可以提升數倍。

從數據生成到模型訓練

在實驗設計方面，研究首先選擇 FLUX.1-dev 作為基礎模型。FLUX.1-dev 是一個已經訓練好的文本到圖像擴散模型。研究人員并沒有重新訓練整個模型，而是在這個模型的基礎上進行后訓練優化。這樣做的主要目的是節省計算資源，同時能夠將研究重點集中在獎勵優化方法本身，而不需要消耗大量資源去重新訓練完整模型。

在數據集設置方面，實驗使用了兩個數據集，分別對應 OCR 任務和 GenEval 任務。OCR 任務的數據集中，訓練集包含約 2 萬條提示詞，測試集包含約 1000 條提示詞。這些提示詞通常用于描述某個具體場景，并且場景中包含指定文字。

例如其中一個提示詞是 “一個珠寶店櫥窗，上面寫著 diamond sale”。模型需要根據這些提示詞生成相應圖像，并在圖像中正確呈現指定文字。另一部分實驗使用 GenEval 數據集，其中訓練集包含約 5 萬條提示詞，測試集包含約 2000 條提示詞。這些提示詞通常描述多個對象、對象屬性以及對象之間的空間關系，例如物體的數量、顏色以及位置關系等內容。

由于 GDRO 采用離線訓練方式，因此在正式訓練之前需要先生成訓練數據。具體流程是：對于每一個提示詞，首先使用基礎模型生成 16 張圖像；隨后對每一張圖像計算獎勵評分，評分來源包括 OCR 識別準確度以及 GenEval 評估結果；之后根據獎勵大小對這些圖像進行排序。經過這一過程，每一個提示詞都會對應一組帶有評分信息的圖像集合，這些圖像組隨后作為 GDRO 訓練階段使用的數據。

在 GDRO 訓練過程中，模型不會再生成新的圖像，而是反復利用已經生成好的這些圖像組進行訓練。訓練時首先從某一個提示詞對應的圖像組中取出多張圖片，然后給這些圖片加入噪聲，以模擬擴散過程中的中間狀態。接著將這些帶噪圖像輸入擴散模型，由模型預測噪聲信息。最后根據模型預測結果以及原始圖像評分計算訓練損失。隨著訓練不斷進行，模型逐漸學習到更傾向生成評分較高的圖像，同時減少生成評分較低圖像的概率。

在實驗比較方面，研究人員將 GDRO 與多種方法進行了對比，包括 Flow - GRPO、Dance GRPO 以及 DPO。這些方法代表不同類型的訓練思想。其中 Flow - GRPO 是一種利用強化學習優化擴散模型的方法， Dance GRPO 是另一種強化學習改進方法，而 DPO 則是一種基于偏好優化思想的方法。通過在相同實驗條件下比較這些方法的效果，可以更加清楚地驗證 GDRO 在性能和穩定性方面的優勢。

此外，研究團隊還進行了消融實驗，用于分析不同參數設置對模型表現的影響。其中一個重要實驗是改變圖像組大小。當圖像組大小只有 2 時，訓練過程會出現明顯的不穩定現象，模型甚至容易發生崩潰。

當圖像組大小增加到 4 或 6 時，訓練穩定性明顯提高。這是因為組級獎勵能夠提供更加豐富的排序信息，使模型在訓練過程中獲得更穩定的優化信號。研究人員還對其他關鍵參數進行了測試，以進一步分析這些因素對模型穩定性和性能的影響。

擴散模型訓練的三個關鍵啟示

在實驗意義方面，這項研究的結果主要體現了三個方面的重要結論。首先，實驗表明擴散模型同樣可以進行獎勵對齊。也就是說，擴散模型可以像語言模型一樣，通過獎勵優化的方式實現模型對齊。不過，由于擴散模型的結構與語言模型存在差異，因此需要設計新的優化方法。GDRO 正是針對擴散模型特點所提出的一種優化方法。

其次，實驗結果表明離線訓練能夠顯著降低訓練成本。研究結果說明，如果能夠利用離線數據進行訓練，就可以避免在訓練過程中頻繁生成新的圖像樣本。這一點對于擴散模型訓練尤為重要，因為圖像生成過程本身計算成本較高，因此減少生成過程能夠明顯降低整體訓練開銷。

最后，實驗還揭示了評價指標使用時需要保持謹慎。研究發現，高評分并不一定意味著生成結果質量更高，因為模型可能會學會利用評分系統中的漏洞，從而獲得較高評分而不真正提升圖像質量。因此，未來研究需要進一步設計更加可靠的評價方法，以更準確地反映模型生成結果的真實質量。

構建 GDRO 的人

論文一作汪逸陽，目前是香港大學計算機視覺方向的博士研究生，導師為趙恒爽教授。他于 2024 年開始攻讀博士學位，目前處于博士第二年。在進入香港大學之前，他于 2024 年 7 月在北京大學完成計算機科學專業本科教育。他的研究方向主要集中在視覺生成模型和多模態模型領域。

具體來說，他關注三個方面的研究問題：第一，利用視覺生成模型解決真實場景中的視覺內容創作需求，例如圖像生成和視覺內容創作；第二，通過設計合理的優化策略和評價標準來提升生成模型的性能，例如利用強化學習或人工反饋等方式改進生成模型；第三，研究如何對生成模型進行更加客觀和合理的評估，從而促進生成模型生成更高質量的內容。

除了學術研究之外，他目前還在通義視覺智能實驗室擔任研究實習生，參與視覺智能相關研究工作。

參考鏈接：https://chandlerwang14.github.io/

這篇論文的通訊作者趙恒爽，目前是香港大學計算與數據科學學院助理教授，從事計算機視覺與人工智能相關研究。他的研究領域主要包括計算機視覺、多模態人工智能、空間智能、生成式人工智能、具身智能以及物理智能等方向，研究目標是構建能夠感知、理解并與環境交互的智能視覺系統，從而推動人工智能在多個領域的應用。

在學術經歷方面，趙恒爽曾在美國麻省理工學院計算機科學與人工智能實驗室從事博士后研究工作，并在英國牛津大學視覺幾何團隊從事研究，由托拉爾巴教授和托爾教授指導。他在香港中文大學獲得博士學位，導師為賈佳亞教授，本科畢業于華中科技大學。

在博士階段以及之后的研究工作中，他曾在多家國際科技公司和研究機構進行科研合作與實習，包括美國 Adobe 公司、Uber 公司以及英特爾公司等，并與多位研究人員開展合作研究。

在研究內容方面，他的研究興趣涵蓋計算機視覺、機器學習和人工智能等多個領域，重點關注三個方向。第一是視覺場景理解，包括視覺感知、三維重建、表示學習以及多模態學習等問題。第二是生成式模型與內容生成，例如圖像、視頻和三維內容的生成與編輯。第三是具身智能相關研究，包括自動駕駛、機器人學習以及大語言模型在真實環境中的應用。

趙恒爽在計算機視覺領域具有較高的學術影響力，多次獲得重要科研獎勵。他獲得過國家自然科學基金優秀青年科學基金項目資助，并獲得世界人工智能大會亮點之星獎以及青年優秀論文獎。他還多次入選人工智能領域具有影響力的學者榜單。

此外，他在多個國際頂級會議和學術活動中擔任重要角色，擔任國際計算機視覺會議多模態學習分會場主席，并組織多個國際會議的專題研討會與教程。

參考鏈接：https://i.cs.hku.hk/~hszhao/

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.