網易首頁 > 網易號 > 正文申請入駐

挑戰GRPO，英偉達提出GDPO，專攻多獎勵優化

2026-01-12 13:58:37　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

GRPO 是促使 DeepSeek-R1 成功的基礎技術之一。最近一兩年，GRPO 及其變體因其高效性和簡潔性，已成為業內廣泛采用的強化學習算法。

但隨著語言模型能力的不斷提升，用戶對它們的期待也在發生變化：不僅要回答正確，還要在各種不同場景下表現出符合多樣化人類偏好的行為。為此，強化學習訓練流程開始引入多種獎勵信號，每一種獎勵對應一種不同的偏好，用來共同引導模型走向理想的行為模式。

但英偉達的一篇新論文卻指出，在進行多獎勵優化時，GRPO 可能不是最佳選擇。

具體來說，在多獎勵優化場景中，GRPO 會將不同的獎勵組合歸一化為相同的優勢值。這會削弱訓練信號，降低獎勵水平。

為了解決這一問題，他們提出了一種新的策略優化方法 —— 組獎勵解耦歸一化策略優化（GDPO）。該方法通過對各個獎勵信號分別進行歸一化，避免了不同獎勵之間被混合「抹平」，從而更真實地保留它們的相對差異，使多獎勵優化更加準確，同時顯著提升了訓練過程的穩定性。

論文標題：GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
論文鏈接：https://arxiv.org/pdf/2601.05242
代碼鏈接：https://github.com/NVlabs/GDPO
項目鏈接：https://nvlabs.github.io/GDPO/
HuggingFace 鏈接：https://huggingface.co/papers/2601.05242

在工具調用、數學推理和代碼推理這三類任務上，論文將 GDPO 與 GRPO 進行了對比評測，既考察了正確性指標（如準確率、缺陷比例），也評估了對約束條件的遵守情況（如格式、長度）。結果顯示，在所有設置中，GDPO 都穩定地優于 GRPO，驗證了其在多獎勵強化學習優化中的有效性和良好泛化能力。

GRPO 有什么問題？

目前，GRPO 主要被用于優化單一目標的獎勵，通常聚焦于準確率。然而，隨著模型能力的持續提升，近期研究越來越傾向于同時優化多個獎勵 —— 例如在準確率之外，還考慮響應長度限制和格式質量，以更好地與人類偏好保持一致。現有的多獎勵強化學習方法通常采用一種直接的策略：將所有獎勵分量相加，然后直接應用 GRPO 進行優化。

具體而言，對于給定的問答對，行為策略會為每個問題采樣一組響應。假設存在 n 個優化目標，則第 j 個響應的聚合獎勵被計算為各目標獎勵之和。隨后，通過對群組級別的聚合獎勵進行歸一化，得到第 j 個響應的群組相對優勢。

作者首先重新審視了這種將 GRPO 直接應用于多獎勵強化學習優化的常見做法，并發現了一個此前被忽視的問題：GRPO 本質上會壓縮獎勵信號，導致優勢估計中的信息損失。

為了說明這一點，他們從一個簡單的訓練場景開始，然后推廣到更一般的情況。假設為每個問題生成兩個 rollout 來計算群組相對優勢，且任務涉及兩個二值獎勵（取值為 0 或 1）。因此，每個 rollout 的總獎勵可取 {0, 1, 2} 中的值。

如圖 2 所示，作者列舉了一個群組內所有可能的 rollout 獎勵組合。盡管在忽略順序的情況下存在六種不同的組合，但在應用群組級獎勵歸一化后，只會產生兩個唯一的優勢組。具體來說，(0,1)、(0,2) 和 (1,2) 會產生相同的歸一化優勢值 (-0.7071, 0.7071)，而 (0,0)、(1,1) 和 (2,2) 則全部歸一化為 (0, 0)。

這揭示了 GRPO 優勢計算在多獎勵優化中的一個根本性局限：它過度壓縮了豐富的群組級獎勵信號。

從直覺上講，(0,2) 應該比 (0,1) 產生更強的學習信號，因為總獎勵為 2 意味著同時滿足了兩個獎勵條件，而獎勵為 1 僅對應達成一個。因此，當另一個 rollout 只獲得零獎勵時，(0,2) 應該產生比 (0,1) 更大的相對優勢。這種局限性還可能因優勢估計不準確而引入訓練不穩定的風險。如圖 5 所示，當使用 GRPO 訓練時，正確率獎勵分數在約 400 個訓練步后開始下降，表明出現了部分訓練坍塌。

近期，Dr.GRPO 和 DeepSeek-v3.2 采用了 GRPO 的一個變體，移除了標準差歸一化項，使得優勢直接等于原始獎勵減去均值。盡管這些工作引入此修改是為了緩解問題級別的難度偏差，但乍看之下，這一改變似乎也能解決上述問題。具體而言，移除標準差歸一化確實在一定程度上緩解了問題：(0,1) 和 (0,2) 現在分別產生 (-0.5, 0.5) 和 (-1.0, 1.0) 的不同優勢值。

然而，當將此設置推廣到更多 rollout（保持獎勵數量固定）時，如圖 3 所示，作者觀察到這種修復方法相比標準 GRPO 僅略微增加了不同優勢組的數量。在固定 rollout 數量為 4、逐步增加獎勵數量的設置下，也觀察到類似趨勢 —— 不同優勢組的數量僅有適度改善。作者還在第 4.1.1 節中實證檢驗了移除標準差歸一化項的效果，發現這一修改并未帶來更好的收斂性或更優的下游評估表現。

GDPO是怎么做的？

為了克服上述挑戰，作者提出了群組獎勵解耦歸一化策略優化（GDPO），這是一種旨在更好地保持不同獎勵組合之間區分度、并更準確地在最終優勢中捕捉其相對差異的方法。

與 GRPO 直接對聚合獎勵和進行群組級歸一化不同，GDPO 通過在聚合之前對每個獎勵分別進行群組級歸一化來解耦這一過程。具體而言，GDPO 不是先將所有 n 個獎勵相加再進行群組級歸一化得到總優勢，而是為第 i 個問題的第 j 個 rollout 的每個獎勵分別計算歸一化優勢，如下所示：

用于策略更新的總體優勢通過以下方式獲得：首先將所有目標的歸一化優勢相加，然后對多獎勵優勢之和應用批次級優勢歸一化。這確保了最終優勢的數值范圍保持穩定，不會隨著額外獎勵的引入而增長。從實證角度，作者還發現這一歸一化步驟能夠改善訓練穩定性。

通過分離每個獎勵的歸一化，GDPO 緩解了 GRPO 優勢估計中存在的信息損失問題，如圖 2 所示。從圖中可以看到，當采用 GRPO 時，不同的獎勵組合（如 (0,2) 和 (0,1)）會導致相同的歸一化優勢，從而掩蓋了它們之間的細微差異。相比之下，GDPO 通過為每種組合分配不同的優勢值來保留這些細粒度差異。

作者通過在兩種實驗設置下比較 GDPO、GRPO 和「無標準差 GRPO」產生的不同優勢組數量，進一步量化了 GDPO 的有效性，如圖 3 所示。在兩個獎勵、rollout 數量變化的場景中，GDPO 始終產生顯著更多的不同優勢組，且隨著 rollout 數量增加，差距不斷擴大。另一方面，當固定 rollout 數量為 4 并增加獎勵數量時，也呈現出類似的模式 ——GDPO 隨著目標數量增長表現出逐步增大的優勢粒度。這表明論文所提出的解耦歸一化方法在所有強化學習設置中都能有效增加不同優勢組的數量，從而實現更精確的優勢估計。

除了這些理論改進之外，作者還觀察到使用 GDPO 能夠持續產生更穩定的訓練曲線和更好的收斂性。例如，在工具調用任務中，GDPO 在格式獎勵和正確率獎勵上都實現了更好的收斂，如圖 4（見實驗部分）所示。GDPO 還消除了 GRPO 在數學推理任務中觀察到的訓練坍塌問題，如圖 5（見實驗部分）所示，使用 GDPO 訓練的模型在整個訓練過程中持續改善正確率獎勵分數。實驗部分的更多實證結果進一步證實了 GDPO 在廣泛的下游任務上實現更強目標偏好對齊的能力。

到目前為止，論文假設所有目標具有同等重要性。然而在實際應用中，這一假設并不總是成立。在論文中，作者系統地概述了如何調整與不同目標相關的獎勵權重，或修改獎勵函數以強制優先考慮更重要的目標。論文還討論了當底層獎勵在難度上存在顯著差異時，這兩種設計選擇的不同行為表現。具體內容可參見論文第三章。

實驗結果如何？

在實驗部分，作者首先在工具調用任務上評估 GDPO 與 GRPO 的效果，然后在數學推理任務上進行比較，最后將優化獎勵數量擴展到三個，在代碼推理任務上進行對比。

工具調用

從圖 4 的訓練曲線可以看到，GDPO 在所有運行中都能在格式獎勵和正確率獎勵上收斂到更高的值。盡管 GDPO 在格式獎勵收斂所需步數上表現出更大的方差，但最終達到的格式合規性優于 GRPO。對于正確率獎勵，GDPO 在早期階段表現出更快的改善，并在后期達到比 GRPO 基線更高的獎勵分數。

在表 1 的 BFCL-v3 評估中，GDPO 也持續提升了平均工具調用準確率和格式正確率。對于 Qwen2.5-Instruct-1.5B 的訓練，GDPO 在 Live/non-Live 任務上分別取得了近 5% 和 3% 的提升，在整體平均準確率上提高了約 2.7%，在正確格式比例上提高了 4% 以上。3B 模型上也觀察到類似的改進。

關于移除標準差歸一化項的效果：從圖 4 可以觀察到，雖然「無標準差 GRPO」收斂到與 GDPO 相似且高于標準 GRPO 的正確率獎勵，但它在格式獎勵上完全失敗。這導致在 BFCL-v3 上的正確格式比例為 0%（見表 2），表明模型未能學習所需的輸出結構。這說明簡單地移除標準差歸一化項以增加優勢多樣性可能會給訓練引入不穩定性。

數學推理

從圖 5 中 DeepSeek-R1-1.5B 的訓練曲線可以看到，模型傾向于最大化更容易的獎勵。在本例中，長度獎勵更容易優化，GRPO 和 GDPO 都在大約前 100 個訓練步內達到滿分長度獎勵。長度獎勵的快速上升伴隨著正確率獎勵的早期下降，表明這兩個獎勵存在競爭關系。

然而，從正確率獎勵軌跡來看，GDPO 比 GRPO 更有效地恢復了正確率獎勵。作者還觀察到 GRPO 訓練在 400 步后開始不穩定，正確率獎勵分數逐漸下降，而 GDPO 則繼續改善。此外，盡管兩者都保持了近乎完美的長度分數，但 GRPO 的最大響應長度在約 400 步后開始急劇增加，而 GDPO 的最大響應長度則持續下降。圖 9 和圖 10 中 DeepSeek-R1-7B 和 Qwen3-4B-Instruct 的訓練曲線也顯示出類似的觀察結果。

表 3 的基準測試結果表明，GDPO 訓練的模型不僅在推理效率上比原始模型取得顯著提升（AIME 上超長比例降低高達 80%），而且在大多數任務上也取得了更高的準確率。對于 DeepSeek-R1-1.5B，GDPO 在所有基準測試上都優于 GRPO，在 MATH、AIME 和 Olympiad 上分別取得了 2.6%/6.7%/2.3% 的準確率提升。DeepSeek-R1-7B 和 Qwen3-4B-Instruct 也呈現類似趨勢，GDPO 在更具挑戰性的 AIME 基準測試上將準確率提高了近 3%，同時將超長率分別降低至 0.2% 和 0.1%。

代碼推理

作者在代碼推理任務上檢驗 GDPO 在優化兩個以上獎勵時是否仍然優于 GRPO。如表 5 所示，在雙獎勵設置下，GDPO 在所有任務上都提升了通過率，同時保持相似的超長比例。例如，GDPO 在 Codecontests 上將通過率提高了 2.6%，而超長比例僅增加 0.1%；在 Taco 上取得了 3.3% 的通過率提升，同時將超長違規降低了 1%。

在三獎勵設置下也呈現類似模式，GDPO 在所有目標上都實現了更有利的平衡，在保持與 GRPO 相似通過率的同時，顯著降低了超長比例和 bug 比例。

總體而言，這些結果表明 GDPO 在獎勵信號數量增加時仍然有效，在雙獎勵和三獎勵配置中都始終比 GRPO 實現更優的跨目標權衡。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.