![]()
機(jī)器之心編輯部
GRPO 是促使 DeepSeek-R1 成功的基礎(chǔ)技術(shù)之一。最近一兩年,GRPO 及其變體因其高效性和簡潔性,已成為業(yè)內(nèi)廣泛采用的強(qiáng)化學(xué)習(xí)算法。
但隨著語言模型能力的不斷提升,用戶對(duì)它們的期待也在發(fā)生變化:不僅要回答正確,還要在各種不同場景下表現(xiàn)出符合多樣化人類偏好的行為。為此,強(qiáng)化學(xué)習(xí)訓(xùn)練流程開始引入多種獎(jiǎng)勵(lì)信號(hào),每一種獎(jiǎng)勵(lì)對(duì)應(yīng)一種不同的偏好,用來共同引導(dǎo)模型走向理想的行為模式。
但英偉達(dá)的一篇新論文卻指出,在進(jìn)行多獎(jiǎng)勵(lì)優(yōu)化時(shí),GRPO 可能不是最佳選擇。
![]()
具體來說,在多獎(jiǎng)勵(lì)優(yōu)化場景中,GRPO 會(huì)將不同的獎(jiǎng)勵(lì)組合歸一化為相同的優(yōu)勢值。這會(huì)削弱訓(xùn)練信號(hào),降低獎(jiǎng)勵(lì)水平。
為了解決這一問題,他們提出了一種新的策略優(yōu)化方法 —— 組獎(jiǎng)勵(lì)解耦歸一化策略優(yōu)化(GDPO)。該方法通過對(duì)各個(gè)獎(jiǎng)勵(lì)信號(hào)分別進(jìn)行歸一化,避免了不同獎(jiǎng)勵(lì)之間被混合「抹平」,從而更真實(shí)地保留它們的相對(duì)差異,使多獎(jiǎng)勵(lì)優(yōu)化更加準(zhǔn)確,同時(shí)顯著提升了訓(xùn)練過程的穩(wěn)定性。
![]()
- 論文標(biāo)題:GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
- 論文鏈接:https://arxiv.org/pdf/2601.05242
- 代碼鏈接:https://github.com/NVlabs/GDPO
- 項(xiàng)目鏈接:https://nvlabs.github.io/GDPO/
- HuggingFace 鏈接:https://huggingface.co/papers/2601.05242
在工具調(diào)用、數(shù)學(xué)推理和代碼推理這三類任務(wù)上,論文將 GDPO 與 GRPO 進(jìn)行了對(duì)比評(píng)測,既考察了正確性指標(biāo)(如準(zhǔn)確率、缺陷比例),也評(píng)估了對(duì)約束條件的遵守情況(如格式、長度)。結(jié)果顯示,在所有設(shè)置中,GDPO 都穩(wěn)定地優(yōu)于 GRPO,驗(yàn)證了其在多獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)優(yōu)化中的有效性和良好泛化能力。
![]()
GRPO 有什么問題?
目前,GRPO 主要被用于優(yōu)化單一目標(biāo)的獎(jiǎng)勵(lì),通常聚焦于準(zhǔn)確率。然而,隨著模型能力的持續(xù)提升,近期研究越來越傾向于同時(shí)優(yōu)化多個(gè)獎(jiǎng)勵(lì) —— 例如在準(zhǔn)確率之外,還考慮響應(yīng)長度限制和格式質(zhì)量,以更好地與人類偏好保持一致。現(xiàn)有的多獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)方法通常采用一種直接的策略:將所有獎(jiǎng)勵(lì)分量相加,然后直接應(yīng)用 GRPO 進(jìn)行優(yōu)化。
具體而言,對(duì)于給定的問答對(duì),行為策略會(huì)為每個(gè)問題采樣一組響應(yīng)。假設(shè)存在 n 個(gè)優(yōu)化目標(biāo),則第 j 個(gè)響應(yīng)的聚合獎(jiǎng)勵(lì)被計(jì)算為各目標(biāo)獎(jiǎng)勵(lì)之和。隨后,通過對(duì)群組級(jí)別的聚合獎(jiǎng)勵(lì)進(jìn)行歸一化,得到第 j 個(gè)響應(yīng)的群組相對(duì)優(yōu)勢。
作者首先重新審視了這種將 GRPO 直接應(yīng)用于多獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)優(yōu)化的常見做法,并發(fā)現(xiàn)了一個(gè)此前被忽視的問題:GRPO 本質(zhì)上會(huì)壓縮獎(jiǎng)勵(lì)信號(hào),導(dǎo)致優(yōu)勢估計(jì)中的信息損失。
為了說明這一點(diǎn),他們從一個(gè)簡單的訓(xùn)練場景開始,然后推廣到更一般的情況。假設(shè)為每個(gè)問題生成兩個(gè) rollout 來計(jì)算群組相對(duì)優(yōu)勢,且任務(wù)涉及兩個(gè)二值獎(jiǎng)勵(lì)(取值為 0 或 1)。因此,每個(gè) rollout 的總獎(jiǎng)勵(lì)可取 {0, 1, 2} 中的值。
如圖 2 所示,作者列舉了一個(gè)群組內(nèi)所有可能的 rollout 獎(jiǎng)勵(lì)組合。盡管在忽略順序的情況下存在六種不同的組合,但在應(yīng)用群組級(jí)獎(jiǎng)勵(lì)歸一化后,只會(huì)產(chǎn)生兩個(gè)唯一的優(yōu)勢組。具體來說,(0,1)、(0,2) 和 (1,2) 會(huì)產(chǎn)生相同的歸一化優(yōu)勢值 (-0.7071, 0.7071),而 (0,0)、(1,1) 和 (2,2) 則全部歸一化為 (0, 0)。
![]()
這揭示了 GRPO 優(yōu)勢計(jì)算在多獎(jiǎng)勵(lì)優(yōu)化中的一個(gè)根本性局限:它過度壓縮了豐富的群組級(jí)獎(jiǎng)勵(lì)信號(hào)。
從直覺上講,(0,2) 應(yīng)該比 (0,1) 產(chǎn)生更強(qiáng)的學(xué)習(xí)信號(hào),因?yàn)榭偑?jiǎng)勵(lì)為 2 意味著同時(shí)滿足了兩個(gè)獎(jiǎng)勵(lì)條件,而獎(jiǎng)勵(lì)為 1 僅對(duì)應(yīng)達(dá)成一個(gè)。因此,當(dāng)另一個(gè) rollout 只獲得零獎(jiǎng)勵(lì)時(shí),(0,2) 應(yīng)該產(chǎn)生比 (0,1) 更大的相對(duì)優(yōu)勢。這種局限性還可能因優(yōu)勢估計(jì)不準(zhǔn)確而引入訓(xùn)練不穩(wěn)定的風(fēng)險(xiǎn)。如圖 5 所示,當(dāng)使用 GRPO 訓(xùn)練時(shí),正確率獎(jiǎng)勵(lì)分?jǐn)?shù)在約 400 個(gè)訓(xùn)練步后開始下降,表明出現(xiàn)了部分訓(xùn)練坍塌。
![]()
近期,Dr.GRPO 和 DeepSeek-v3.2 采用了 GRPO 的一個(gè)變體,移除了標(biāo)準(zhǔn)差歸一化項(xiàng),使得優(yōu)勢直接等于原始獎(jiǎng)勵(lì)減去均值。盡管這些工作引入此修改是為了緩解問題級(jí)別的難度偏差,但乍看之下,這一改變似乎也能解決上述問題。具體而言,移除標(biāo)準(zhǔn)差歸一化確實(shí)在一定程度上緩解了問題:(0,1) 和 (0,2) 現(xiàn)在分別產(chǎn)生 (-0.5, 0.5) 和 (-1.0, 1.0) 的不同優(yōu)勢值。
然而,當(dāng)將此設(shè)置推廣到更多 rollout(保持獎(jiǎng)勵(lì)數(shù)量固定)時(shí),如圖 3 所示,作者觀察到這種修復(fù)方法相比標(biāo)準(zhǔn) GRPO 僅略微增加了不同優(yōu)勢組的數(shù)量。在固定 rollout 數(shù)量為 4、逐步增加獎(jiǎng)勵(lì)數(shù)量的設(shè)置下,也觀察到類似趨勢 —— 不同優(yōu)勢組的數(shù)量僅有適度改善。作者還在第 4.1.1 節(jié)中實(shí)證檢驗(yàn)了移除標(biāo)準(zhǔn)差歸一化項(xiàng)的效果,發(fā)現(xiàn)這一修改并未帶來更好的收斂性或更優(yōu)的下游評(píng)估表現(xiàn)。
![]()
GDPO是怎么做的?
為了克服上述挑戰(zhàn),作者提出了群組獎(jiǎng)勵(lì)解耦歸一化策略優(yōu)化(GDPO),這是一種旨在更好地保持不同獎(jiǎng)勵(lì)組合之間區(qū)分度、并更準(zhǔn)確地在最終優(yōu)勢中捕捉其相對(duì)差異的方法。
與 GRPO 直接對(duì)聚合獎(jiǎng)勵(lì)和進(jìn)行群組級(jí)歸一化不同,GDPO 通過在聚合之前對(duì)每個(gè)獎(jiǎng)勵(lì)分別進(jìn)行群組級(jí)歸一化來解耦這一過程。具體而言,GDPO 不是先將所有 n 個(gè)獎(jiǎng)勵(lì)相加再進(jìn)行群組級(jí)歸一化得到總優(yōu)勢,而是為第 i 個(gè)問題的第 j 個(gè) rollout 的每個(gè)獎(jiǎng)勵(lì)分別計(jì)算歸一化優(yōu)勢,如下所示:
![]()
用于策略更新的總體優(yōu)勢通過以下方式獲得:首先將所有目標(biāo)的歸一化優(yōu)勢相加,然后對(duì)多獎(jiǎng)勵(lì)優(yōu)勢之和應(yīng)用批次級(jí)優(yōu)勢歸一化。這確保了最終優(yōu)勢的數(shù)值范圍保持穩(wěn)定,不會(huì)隨著額外獎(jiǎng)勵(lì)的引入而增長。從實(shí)證角度,作者還發(fā)現(xiàn)這一歸一化步驟能夠改善訓(xùn)練穩(wěn)定性。
通過分離每個(gè)獎(jiǎng)勵(lì)的歸一化,GDPO 緩解了 GRPO 優(yōu)勢估計(jì)中存在的信息損失問題,如圖 2 所示。從圖中可以看到,當(dāng)采用 GRPO 時(shí),不同的獎(jiǎng)勵(lì)組合(如 (0,2) 和 (0,1))會(huì)導(dǎo)致相同的歸一化優(yōu)勢,從而掩蓋了它們之間的細(xì)微差異。相比之下,GDPO 通過為每種組合分配不同的優(yōu)勢值來保留這些細(xì)粒度差異。
作者通過在兩種實(shí)驗(yàn)設(shè)置下比較 GDPO、GRPO 和「無標(biāo)準(zhǔn)差 GRPO」產(chǎn)生的不同優(yōu)勢組數(shù)量,進(jìn)一步量化了 GDPO 的有效性,如圖 3 所示。在兩個(gè)獎(jiǎng)勵(lì)、rollout 數(shù)量變化的場景中,GDPO 始終產(chǎn)生顯著更多的不同優(yōu)勢組,且隨著 rollout 數(shù)量增加,差距不斷擴(kuò)大。另一方面,當(dāng)固定 rollout 數(shù)量為 4 并增加獎(jiǎng)勵(lì)數(shù)量時(shí),也呈現(xiàn)出類似的模式 ——GDPO 隨著目標(biāo)數(shù)量增長表現(xiàn)出逐步增大的優(yōu)勢粒度。這表明論文所提出的解耦歸一化方法在所有強(qiáng)化學(xué)習(xí)設(shè)置中都能有效增加不同優(yōu)勢組的數(shù)量,從而實(shí)現(xiàn)更精確的優(yōu)勢估計(jì)。
除了這些理論改進(jìn)之外,作者還觀察到使用 GDPO 能夠持續(xù)產(chǎn)生更穩(wěn)定的訓(xùn)練曲線和更好的收斂性。例如,在工具調(diào)用任務(wù)中,GDPO 在格式獎(jiǎng)勵(lì)和正確率獎(jiǎng)勵(lì)上都實(shí)現(xiàn)了更好的收斂,如圖 4(見實(shí)驗(yàn)部分)所示。GDPO 還消除了 GRPO 在數(shù)學(xué)推理任務(wù)中觀察到的訓(xùn)練坍塌問題,如圖 5(見實(shí)驗(yàn)部分)所示,使用 GDPO 訓(xùn)練的模型在整個(gè)訓(xùn)練過程中持續(xù)改善正確率獎(jiǎng)勵(lì)分?jǐn)?shù)。實(shí)驗(yàn)部分的更多實(shí)證結(jié)果進(jìn)一步證實(shí)了 GDPO 在廣泛的下游任務(wù)上實(shí)現(xiàn)更強(qiáng)目標(biāo)偏好對(duì)齊的能力。
到目前為止,論文假設(shè)所有目標(biāo)具有同等重要性。然而在實(shí)際應(yīng)用中,這一假設(shè)并不總是成立。在論文中,作者系統(tǒng)地概述了如何調(diào)整與不同目標(biāo)相關(guān)的獎(jiǎng)勵(lì)權(quán)重,或修改獎(jiǎng)勵(lì)函數(shù)以強(qiáng)制優(yōu)先考慮更重要的目標(biāo)。論文還討論了當(dāng)?shù)讓营?jiǎng)勵(lì)在難度上存在顯著差異時(shí),這兩種設(shè)計(jì)選擇的不同行為表現(xiàn)。具體內(nèi)容可參見論文第三章。
實(shí)驗(yàn)結(jié)果如何?
在實(shí)驗(yàn)部分,作者首先在工具調(diào)用任務(wù)上評(píng)估 GDPO 與 GRPO 的效果,然后在數(shù)學(xué)推理任務(wù)上進(jìn)行比較,最后將優(yōu)化獎(jiǎng)勵(lì)數(shù)量擴(kuò)展到三個(gè),在代碼推理任務(wù)上進(jìn)行對(duì)比。
工具調(diào)用
從圖 4 的訓(xùn)練曲線可以看到,GDPO 在所有運(yùn)行中都能在格式獎(jiǎng)勵(lì)和正確率獎(jiǎng)勵(lì)上收斂到更高的值。盡管 GDPO 在格式獎(jiǎng)勵(lì)收斂所需步數(shù)上表現(xiàn)出更大的方差,但最終達(dá)到的格式合規(guī)性優(yōu)于 GRPO。對(duì)于正確率獎(jiǎng)勵(lì),GDPO 在早期階段表現(xiàn)出更快的改善,并在后期達(dá)到比 GRPO 基線更高的獎(jiǎng)勵(lì)分?jǐn)?shù)。
![]()
在表 1 的 BFCL-v3 評(píng)估中,GDPO 也持續(xù)提升了平均工具調(diào)用準(zhǔn)確率和格式正確率。對(duì)于 Qwen2.5-Instruct-1.5B 的訓(xùn)練,GDPO 在 Live/non-Live 任務(wù)上分別取得了近 5% 和 3% 的提升,在整體平均準(zhǔn)確率上提高了約 2.7%,在正確格式比例上提高了 4% 以上。3B 模型上也觀察到類似的改進(jìn)。
![]()
關(guān)于移除標(biāo)準(zhǔn)差歸一化項(xiàng)的效果:從圖 4 可以觀察到,雖然「無標(biāo)準(zhǔn)差 GRPO」收斂到與 GDPO 相似且高于標(biāo)準(zhǔn) GRPO 的正確率獎(jiǎng)勵(lì),但它在格式獎(jiǎng)勵(lì)上完全失敗。這導(dǎo)致在 BFCL-v3 上的正確格式比例為 0%(見表 2),表明模型未能學(xué)習(xí)所需的輸出結(jié)構(gòu)。這說明簡單地移除標(biāo)準(zhǔn)差歸一化項(xiàng)以增加優(yōu)勢多樣性可能會(huì)給訓(xùn)練引入不穩(wěn)定性。
![]()
數(shù)學(xué)推理
從圖 5 中 DeepSeek-R1-1.5B 的訓(xùn)練曲線可以看到,模型傾向于最大化更容易的獎(jiǎng)勵(lì)。在本例中,長度獎(jiǎng)勵(lì)更容易優(yōu)化,GRPO 和 GDPO 都在大約前 100 個(gè)訓(xùn)練步內(nèi)達(dá)到滿分長度獎(jiǎng)勵(lì)。長度獎(jiǎng)勵(lì)的快速上升伴隨著正確率獎(jiǎng)勵(lì)的早期下降,表明這兩個(gè)獎(jiǎng)勵(lì)存在競爭關(guān)系。
![]()
然而,從正確率獎(jiǎng)勵(lì)軌跡來看,GDPO 比 GRPO 更有效地恢復(fù)了正確率獎(jiǎng)勵(lì)。作者還觀察到 GRPO 訓(xùn)練在 400 步后開始不穩(wěn)定,正確率獎(jiǎng)勵(lì)分?jǐn)?shù)逐漸下降,而 GDPO 則繼續(xù)改善。此外,盡管兩者都保持了近乎完美的長度分?jǐn)?shù),但 GRPO 的最大響應(yīng)長度在約 400 步后開始急劇增加,而 GDPO 的最大響應(yīng)長度則持續(xù)下降。圖 9 和圖 10 中 DeepSeek-R1-7B 和 Qwen3-4B-Instruct 的訓(xùn)練曲線也顯示出類似的觀察結(jié)果。
![]()
表 3 的基準(zhǔn)測試結(jié)果表明,GDPO 訓(xùn)練的模型不僅在推理效率上比原始模型取得顯著提升(AIME 上超長比例降低高達(dá) 80%),而且在大多數(shù)任務(wù)上也取得了更高的準(zhǔn)確率。對(duì)于 DeepSeek-R1-1.5B,GDPO 在所有基準(zhǔn)測試上都優(yōu)于 GRPO,在 MATH、AIME 和 Olympiad 上分別取得了 2.6%/6.7%/2.3% 的準(zhǔn)確率提升。DeepSeek-R1-7B 和 Qwen3-4B-Instruct 也呈現(xiàn)類似趨勢,GDPO 在更具挑戰(zhàn)性的 AIME 基準(zhǔn)測試上將準(zhǔn)確率提高了近 3%,同時(shí)將超長率分別降低至 0.2% 和 0.1%。
![]()
代碼推理
作者在代碼推理任務(wù)上檢驗(yàn) GDPO 在優(yōu)化兩個(gè)以上獎(jiǎng)勵(lì)時(shí)是否仍然優(yōu)于 GRPO。如表 5 所示,在雙獎(jiǎng)勵(lì)設(shè)置下,GDPO 在所有任務(wù)上都提升了通過率,同時(shí)保持相似的超長比例。例如,GDPO 在 Codecontests 上將通過率提高了 2.6%,而超長比例僅增加 0.1%;在 Taco 上取得了 3.3% 的通過率提升,同時(shí)將超長違規(guī)降低了 1%。
![]()
在三獎(jiǎng)勵(lì)設(shè)置下也呈現(xiàn)類似模式,GDPO 在所有目標(biāo)上都實(shí)現(xiàn)了更有利的平衡,在保持與 GRPO 相似通過率的同時(shí),顯著降低了超長比例和 bug 比例。
總體而言,這些結(jié)果表明 GDPO 在獎(jiǎng)勵(lì)信號(hào)數(shù)量增加時(shí)仍然有效,在雙獎(jiǎng)勵(lì)和三獎(jiǎng)勵(lì)配置中都始終比 GRPO 實(shí)現(xiàn)更優(yōu)的跨目標(biāo)權(quán)衡。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.