<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      挑戰GRPO,英偉達提出GDPO,專攻多獎勵優化

      0
      分享至



      機器之心編輯部

      GRPO 是促使 DeepSeek-R1 成功的基礎技術之一。最近一兩年,GRPO 及其變體因其高效性和簡潔性,已成為業內廣泛采用的強化學習算法。

      但隨著語言模型能力的不斷提升,用戶對它們的期待也在發生變化:不僅要回答正確,還要在各種不同場景下表現出符合多樣化人類偏好的行為。為此,強化學習訓練流程開始引入多種獎勵信號,每一種獎勵對應一種不同的偏好,用來共同引導模型走向理想的行為模式。

      但英偉達的一篇新論文卻指出,在進行多獎勵優化時,GRPO 可能不是最佳選擇。



      具體來說,在多獎勵優化場景中,GRPO 會將不同的獎勵組合歸一化為相同的優勢值。這會削弱訓練信號,降低獎勵水平。

      為了解決這一問題,他們提出了一種新的策略優化方法 —— 組獎勵解耦歸一化策略優化(GDPO)。該方法通過對各個獎勵信號分別進行歸一化,避免了不同獎勵之間被混合「抹平」,從而更真實地保留它們的相對差異,使多獎勵優化更加準確,同時顯著提升了訓練過程的穩定性。



      • 論文標題:GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
      • 論文鏈接:https://arxiv.org/pdf/2601.05242
      • 代碼鏈接:https://github.com/NVlabs/GDPO
      • 項目鏈接:https://nvlabs.github.io/GDPO/
      • HuggingFace 鏈接:https://huggingface.co/papers/2601.05242

      在工具調用、數學推理和代碼推理這三類任務上,論文將 GDPO 與 GRPO 進行了對比評測,既考察了正確性指標(如準確率、缺陷比例),也評估了對約束條件的遵守情況(如格式、長度)。結果顯示,在所有設置中,GDPO 都穩定地優于 GRPO,驗證了其在多獎勵強化學習優化中的有效性和良好泛化能力。



      GRPO 有什么問題?

      目前,GRPO 主要被用于優化單一目標的獎勵,通常聚焦于準確率。然而,隨著模型能力的持續提升,近期研究越來越傾向于同時優化多個獎勵 —— 例如在準確率之外,還考慮響應長度限制和格式質量,以更好地與人類偏好保持一致。現有的多獎勵強化學習方法通常采用一種直接的策略:將所有獎勵分量相加,然后直接應用 GRPO 進行優化。

      具體而言,對于給定的問答對,行為策略會為每個問題采樣一組響應。假設存在 n 個優化目標,則第 j 個響應的聚合獎勵被計算為各目標獎勵之和。隨后,通過對群組級別的聚合獎勵進行歸一化,得到第 j 個響應的群組相對優勢。

      作者首先重新審視了這種將 GRPO 直接應用于多獎勵強化學習優化的常見做法,并發現了一個此前被忽視的問題:GRPO 本質上會壓縮獎勵信號,導致優勢估計中的信息損失。

      為了說明這一點,他們從一個簡單的訓練場景開始,然后推廣到更一般的情況。假設為每個問題生成兩個 rollout 來計算群組相對優勢,且任務涉及兩個二值獎勵(取值為 0 或 1)。因此,每個 rollout 的總獎勵可取 {0, 1, 2} 中的值。

      如圖 2 所示,作者列舉了一個群組內所有可能的 rollout 獎勵組合。盡管在忽略順序的情況下存在六種不同的組合,但在應用群組級獎勵歸一化后,只會產生兩個唯一的優勢組。具體來說,(0,1)、(0,2) 和 (1,2) 會產生相同的歸一化優勢值 (-0.7071, 0.7071),而 (0,0)、(1,1) 和 (2,2) 則全部歸一化為 (0, 0)。



      這揭示了 GRPO 優勢計算在多獎勵優化中的一個根本性局限:它過度壓縮了豐富的群組級獎勵信號。

      從直覺上講,(0,2) 應該比 (0,1) 產生更強的學習信號,因為總獎勵為 2 意味著同時滿足了兩個獎勵條件,而獎勵為 1 僅對應達成一個。因此,當另一個 rollout 只獲得零獎勵時,(0,2) 應該產生比 (0,1) 更大的相對優勢。這種局限性還可能因優勢估計不準確而引入訓練不穩定的風險。如圖 5 所示,當使用 GRPO 訓練時,正確率獎勵分數在約 400 個訓練步后開始下降,表明出現了部分訓練坍塌。



      近期,Dr.GRPO 和 DeepSeek-v3.2 采用了 GRPO 的一個變體,移除了標準差歸一化項,使得優勢直接等于原始獎勵減去均值。盡管這些工作引入此修改是為了緩解問題級別的難度偏差,但乍看之下,這一改變似乎也能解決上述問題。具體而言,移除標準差歸一化確實在一定程度上緩解了問題:(0,1) 和 (0,2) 現在分別產生 (-0.5, 0.5) 和 (-1.0, 1.0) 的不同優勢值。

      然而,當將此設置推廣到更多 rollout(保持獎勵數量固定)時,如圖 3 所示,作者觀察到這種修復方法相比標準 GRPO 僅略微增加了不同優勢組的數量。在固定 rollout 數量為 4、逐步增加獎勵數量的設置下,也觀察到類似趨勢 —— 不同優勢組的數量僅有適度改善。作者還在第 4.1.1 節中實證檢驗了移除標準差歸一化項的效果,發現這一修改并未帶來更好的收斂性或更優的下游評估表現。



      GDPO是怎么做的?

      為了克服上述挑戰,作者提出了群組獎勵解耦歸一化策略優化(GDPO),這是一種旨在更好地保持不同獎勵組合之間區分度、并更準確地在最終優勢中捕捉其相對差異的方法。

      與 GRPO 直接對聚合獎勵和進行群組級歸一化不同,GDPO 通過在聚合之前對每個獎勵分別進行群組級歸一化來解耦這一過程。具體而言,GDPO 不是先將所有 n 個獎勵相加再進行群組級歸一化得到總優勢,而是為第 i 個問題的第 j 個 rollout 的每個獎勵分別計算歸一化優勢,如下所示:



      用于策略更新的總體優勢通過以下方式獲得:首先將所有目標的歸一化優勢相加,然后對多獎勵優勢之和應用批次級優勢歸一化。這確保了最終優勢的數值范圍保持穩定,不會隨著額外獎勵的引入而增長。從實證角度,作者還發現這一歸一化步驟能夠改善訓練穩定性。

      通過分離每個獎勵的歸一化,GDPO 緩解了 GRPO 優勢估計中存在的信息損失問題,如圖 2 所示。從圖中可以看到,當采用 GRPO 時,不同的獎勵組合(如 (0,2) 和 (0,1))會導致相同的歸一化優勢,從而掩蓋了它們之間的細微差異。相比之下,GDPO 通過為每種組合分配不同的優勢值來保留這些細粒度差異。

      作者通過在兩種實驗設置下比較 GDPO、GRPO 和「無標準差 GRPO」產生的不同優勢組數量,進一步量化了 GDPO 的有效性,如圖 3 所示。在兩個獎勵、rollout 數量變化的場景中,GDPO 始終產生顯著更多的不同優勢組,且隨著 rollout 數量增加,差距不斷擴大。另一方面,當固定 rollout 數量為 4 并增加獎勵數量時,也呈現出類似的模式 ——GDPO 隨著目標數量增長表現出逐步增大的優勢粒度。這表明論文所提出的解耦歸一化方法在所有強化學習設置中都能有效增加不同優勢組的數量,從而實現更精確的優勢估計。

      除了這些理論改進之外,作者還觀察到使用 GDPO 能夠持續產生更穩定的訓練曲線和更好的收斂性。例如,在工具調用任務中,GDPO 在格式獎勵和正確率獎勵上都實現了更好的收斂,如圖 4(見實驗部分)所示。GDPO 還消除了 GRPO 在數學推理任務中觀察到的訓練坍塌問題,如圖 5(見實驗部分)所示,使用 GDPO 訓練的模型在整個訓練過程中持續改善正確率獎勵分數。實驗部分的更多實證結果進一步證實了 GDPO 在廣泛的下游任務上實現更強目標偏好對齊的能力。

      到目前為止,論文假設所有目標具有同等重要性。然而在實際應用中,這一假設并不總是成立。在論文中,作者系統地概述了如何調整與不同目標相關的獎勵權重,或修改獎勵函數以強制優先考慮更重要的目標。論文還討論了當底層獎勵在難度上存在顯著差異時,這兩種設計選擇的不同行為表現。具體內容可參見論文第三章。

      實驗結果如何?

      在實驗部分,作者首先在工具調用任務上評估 GDPO 與 GRPO 的效果,然后在數學推理任務上進行比較,最后將優化獎勵數量擴展到三個,在代碼推理任務上進行對比。

      工具調用

      從圖 4 的訓練曲線可以看到,GDPO 在所有運行中都能在格式獎勵和正確率獎勵上收斂到更高的值。盡管 GDPO 在格式獎勵收斂所需步數上表現出更大的方差,但最終達到的格式合規性優于 GRPO。對于正確率獎勵,GDPO 在早期階段表現出更快的改善,并在后期達到比 GRPO 基線更高的獎勵分數。



      在表 1 的 BFCL-v3 評估中,GDPO 也持續提升了平均工具調用準確率和格式正確率。對于 Qwen2.5-Instruct-1.5B 的訓練,GDPO 在 Live/non-Live 任務上分別取得了近 5% 和 3% 的提升,在整體平均準確率上提高了約 2.7%,在正確格式比例上提高了 4% 以上。3B 模型上也觀察到類似的改進。



      關于移除標準差歸一化項的效果:從圖 4 可以觀察到,雖然「無標準差 GRPO」收斂到與 GDPO 相似且高于標準 GRPO 的正確率獎勵,但它在格式獎勵上完全失敗。這導致在 BFCL-v3 上的正確格式比例為 0%(見表 2),表明模型未能學習所需的輸出結構。這說明簡單地移除標準差歸一化項以增加優勢多樣性可能會給訓練引入不穩定性。



      數學推理

      從圖 5 中 DeepSeek-R1-1.5B 的訓練曲線可以看到,模型傾向于最大化更容易的獎勵。在本例中,長度獎勵更容易優化,GRPO 和 GDPO 都在大約前 100 個訓練步內達到滿分長度獎勵。長度獎勵的快速上升伴隨著正確率獎勵的早期下降,表明這兩個獎勵存在競爭關系。



      然而,從正確率獎勵軌跡來看,GDPO 比 GRPO 更有效地恢復了正確率獎勵。作者還觀察到 GRPO 訓練在 400 步后開始不穩定,正確率獎勵分數逐漸下降,而 GDPO 則繼續改善。此外,盡管兩者都保持了近乎完美的長度分數,但 GRPO 的最大響應長度在約 400 步后開始急劇增加,而 GDPO 的最大響應長度則持續下降。圖 9 和圖 10 中 DeepSeek-R1-7B 和 Qwen3-4B-Instruct 的訓練曲線也顯示出類似的觀察結果。



      表 3 的基準測試結果表明,GDPO 訓練的模型不僅在推理效率上比原始模型取得顯著提升(AIME 上超長比例降低高達 80%),而且在大多數任務上也取得了更高的準確率。對于 DeepSeek-R1-1.5B,GDPO 在所有基準測試上都優于 GRPO,在 MATH、AIME 和 Olympiad 上分別取得了 2.6%/6.7%/2.3% 的準確率提升。DeepSeek-R1-7B 和 Qwen3-4B-Instruct 也呈現類似趨勢,GDPO 在更具挑戰性的 AIME 基準測試上將準確率提高了近 3%,同時將超長率分別降低至 0.2% 和 0.1%。



      代碼推理

      作者在代碼推理任務上檢驗 GDPO 在優化兩個以上獎勵時是否仍然優于 GRPO。如表 5 所示,在雙獎勵設置下,GDPO 在所有任務上都提升了通過率,同時保持相似的超長比例。例如,GDPO 在 Codecontests 上將通過率提高了 2.6%,而超長比例僅增加 0.1%;在 Taco 上取得了 3.3% 的通過率提升,同時將超長違規降低了 1%。



      在三獎勵設置下也呈現類似模式,GDPO 在所有目標上都實現了更有利的平衡,在保持與 GRPO 相似通過率的同時,顯著降低了超長比例和 bug 比例。

      總體而言,這些結果表明 GDPO 在獎勵信號數量增加時仍然有效,在雙獎勵和三獎勵配置中都始終比 GRPO 實現更優的跨目標權衡。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      給環衛工人戴定位器工牌,不動就罰款?建議先給出點子的領導們普及

      給環衛工人戴定位器工牌,不動就罰款?建議先給出點子的領導們普及

      小蘿卜絲
      2026-01-23 08:56:28
      立案調查!劉濤、郭晶晶代言品牌天塌了!

      立案調查!劉濤、郭晶晶代言品牌天塌了!

      廣告創意
      2026-01-23 08:24:53
      表姐考研借住我家,進門就要主臥,我一句反問讓她傻眼

      表姐考研借住我家,進門就要主臥,我一句反問讓她傻眼

      曉艾故事匯
      2026-01-14 16:06:25
      張子強家人現狀曝光:遺孀攜20億定居泰國,大兒子成了餐廳廚師

      張子強家人現狀曝光:遺孀攜20億定居泰國,大兒子成了餐廳廚師

      談史論天地
      2026-01-20 16:40:58
      廣東強勢擊敗廣廈,CBA最新積分榜:廣東躍升至第二!

      廣東強勢擊敗廣廈,CBA最新積分榜:廣東躍升至第二!

      星Xin辰大海
      2026-01-22 16:23:04
      短裙:一種關于“可能”的懷念

      短裙:一種關于“可能”的懷念

      疾跑的小蝸牛
      2026-01-22 23:09:26
      張藝謀推出巨制諜戰片,打了春節檔一個措手不及,影視圈要變天了

      張藝謀推出巨制諜戰片,打了春節檔一個措手不及,影視圈要變天了

      娛樂圈筆娛君
      2026-01-22 18:05:08
      丹麥外相:愿當面告訴特朗普 格陵蘭島主權歸屬不容談判

      丹麥外相:愿當面告訴特朗普 格陵蘭島主權歸屬不容談判

      新華社
      2026-01-22 07:12:02
      想要拿捏女人很簡單,你只要做到這九點中的任意三點就夠了

      想要拿捏女人很簡單,你只要做到這九點中的任意三點就夠了

      屏兒愛讀書
      2025-05-12 18:32:52
      已被打假的羅大友,推廣文章為何還能刊發在認證賬號?

      已被打假的羅大友,推廣文章為何還能刊發在認證賬號?

      澎湃新聞
      2026-01-22 07:57:06
      4國首腦準備訪華,中方已遞出一張邀請函,3天后專機將抵達北京

      4國首腦準備訪華,中方已遞出一張邀請函,3天后專機將抵達北京

      特特農村生活
      2026-01-23 04:58:33
      這是怎么了?埃梅里推搡了被換下的蒂勒曼斯并對他怒吼

      這是怎么了?埃梅里推搡了被換下的蒂勒曼斯并對他怒吼

      懂球帝
      2026-01-23 05:35:16
      馬克龍受了奇恥大辱,轉頭對中國提出兩個請求,特朗普緊急攤牌

      馬克龍受了奇恥大辱,轉頭對中國提出兩個請求,特朗普緊急攤牌

      吃貨的分享
      2026-01-23 07:45:10
      巴媒:巴西足協已與安切洛蒂就續約至2030年達成協議

      巴媒:巴西足協已與安切洛蒂就續約至2030年達成協議

      懂球帝
      2026-01-23 03:57:46
      央視確認!3家中超爭冠隊欲簽李昊,歐洲隊也在關注,身價2000萬

      央視確認!3家中超爭冠隊欲簽李昊,歐洲隊也在關注,身價2000萬

      我愛英超
      2026-01-22 19:24:27
      拜合拉木表哥:我表弟父母去世后他家里特困難,爺爺養著他長大

      拜合拉木表哥:我表弟父母去世后他家里特困難,爺爺養著他長大

      懂球帝
      2026-01-22 16:29:28
      泰國國家旅游局因Lisa旅游宣傳圖引發爭議

      泰國國家旅游局因Lisa旅游宣傳圖引發爭議

      曼谷陳大叔
      2026-01-22 15:59:48
      冠軍聯賽:吳宜澤3-1勝趙心童奪冠,趙心童打出生涯首桿147

      冠軍聯賽:吳宜澤3-1勝趙心童奪冠,趙心童打出生涯首桿147

      工從昊懂球阿靖
      2026-01-23 04:49:18
      金飾每克便宜200元、多人排隊搶購,胖東來回應

      金飾每克便宜200元、多人排隊搶購,胖東來回應

      界面新聞
      2026-01-22 17:28:41
      范志毅英籍女兒男友:一任沒錢,二任太老,三任才是老范心中貴婿

      范志毅英籍女兒男友:一任沒錢,二任太老,三任才是老范心中貴婿

      小熊侃史
      2025-12-10 07:05:13
      2026-01-23 09:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12171文章數 142547關注度
      往期回顧 全部

      科技要聞

      財報還行,股價崩了,英特爾“掉鏈子”

      頭條要聞

      美媒:美國看待中國的心態變了

      頭條要聞

      美媒:美國看待中國的心態變了

      體育要聞

      跑個步而已,他們在燃什么?

      娛樂要聞

      車銀優賺800億 涉嫌逃稅200億!

      財經要聞

      西貝拿到“救命錢”,然后呢

      汽車要聞

      配備多塊娛樂屏 極氪8X內飾曝光

      態度原創

      時尚
      本地
      藝術
      旅游
      手機

      章小姐罕見談婚姻,這個詞用得太妙了

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      藝術要聞

      有一個匠人叫仇英,他的繪畫耐人追尋

      旅游要聞

      去年海南接待游客1.06億人次,接待入境游客超150萬人次

      手機要聞

      12月份單品銷量Top20出爐,看完有點扎心

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品偷拍被偷拍在线观看| 无码精品一区二区三区在线| 国产成人a∨激情视频厨房| 免费可以在线看a∨网站| 极品无码国模在线观看| 伊人偷拍| 中文字幕人妻系列| 中文字幕人妻无码一区二区三区| 天天色成人| 亚洲高清中文字幕| 亚洲精品在线少妇内射| 大胸少妇午夜三级| 久久无码精品精品古装毛片| 潮喷视频在线播放| 久久综合88熟人妻| 国产成人综合久久二区| 都江堰市| 国产精品中文第一字幕| 毛片tv网站无套内射tv网站| 欧美老肥妇做爰bbww| 欧美大胆老熟妇乱子伦视频| 99国产在线| 久久国产精品一国产精品| 日韩高清在线亚洲专区观看| 无码中出人妻中文字幕AV| 亚洲中文视频| 中文字幕无码视频手机免费看 | 欧美顶级metart裸体全部自慰| 国产足交| 国产亚洲精品超碰热| 99久久精品久久久久久婷婷| 亚洲av成人精品一区二区三区 | 色色狠狠| 欧美在线伊人| 四虎影视一区二区精品| 人人干人人噪人人摸| 国产成人+综合亚洲+天堂| 玩弄丰满少妇一二三区| 盐津县| 少妇人妻偷人精品系列| 偷偷色噜狠狠狠狠的777米奇|