<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      揭秘!RLVR/GRPO中那些長(zhǎng)期被忽略的關(guān)鍵缺陷

      0
      分享至



      近年來,大模型在數(shù)學(xué)推理、代碼生成等任務(wù)上的突破,背后一個(gè)關(guān)鍵技術(shù)是RLVR(Reinforcement Learning with Verifiable Rewards)。

      簡(jiǎn)單來說,RLVR 不是讓模型「聽人打分」,而是讓模型自己嘗試多種解法,然后用可驗(yàn)證的規(guī)則(如答案是否正確)來反向改進(jìn)自己。這使得模型能夠通過反復(fù)試錯(cuò)不斷變強(qiáng),被廣泛應(yīng)用于當(dāng)前最先進(jìn)的推理模型中。

      在實(shí)際訓(xùn)練中,為了讓學(xué)習(xí)過程更穩(wěn)定、避免引入額外的價(jià)值網(wǎng)絡(luò),許多 RLVR 方法(如 GRPO)都會(huì)對(duì)同一個(gè)問題生成一組回答,并在組內(nèi)進(jìn)行相對(duì)比較。模型不是直接看「這個(gè)回答好不好」,而是看「它在這一組回答中相對(duì)好不好」,這就是所謂的組內(nèi)優(yōu)勢(shì)估計(jì)(group-relative advantage),也是目前幾乎所有 group-based 強(qiáng)化學(xué)習(xí)方法的核心設(shè)計(jì)。優(yōu)勢(shì)估計(jì)并不僅僅是一個(gè)「評(píng)估指標(biāo)」,而是直接決定策略梯度更新方向的核心信號(hào)。

      然而,一個(gè)長(zhǎng)期被忽視的關(guān)鍵問題在于:組內(nèi)優(yōu)勢(shì)估計(jì)并不像人們通常直覺認(rèn)為的那樣是「近似無偏」的。

      相反,北航、北大、UCB、美團(tuán)最新的工作揭示了,這種組內(nèi)優(yōu)勢(shì)估計(jì)在統(tǒng)計(jì)意義上存在明確且系統(tǒng)性的方向性偏差:困難題的優(yōu)勢(shì)會(huì)被持續(xù)低估,而簡(jiǎn)單題的優(yōu)勢(shì)則被不斷高估。



      • 論文地址:https://arxiv.org/pdf/2601.08521

      這一偏差帶來的后果往往十分隱蔽,卻極具破壞性。訓(xùn)練過程中,曲線表面上看似「穩(wěn)定收斂」,但模型實(shí)際上正在逐漸回避困難問題、轉(zhuǎn)而偏好簡(jiǎn)單樣本。隨著訓(xùn)練的推進(jìn),探索與利用之間的平衡被悄然打破,模型的泛化能力與長(zhǎng)期訓(xùn)練穩(wěn)定性也隨之下降。

      更關(guān)鍵的是,這并非一個(gè)可以通過簡(jiǎn)單調(diào)整超參數(shù)來緩解的問題,而是組內(nèi)優(yōu)勢(shì)估計(jì)這一設(shè)計(jì)在統(tǒng)計(jì)結(jié)構(gòu)層面本身就存在的內(nèi)在缺陷。

      定義

      接下來,我們先引入若干必要的定義,以便于清晰表述后續(xù)的核心發(fā)現(xiàn)。我們首先給出最常用的組內(nèi)相對(duì)優(yōu)勢(shì)估計(jì)的數(shù)學(xué)定義。

      組內(nèi)相對(duì)優(yōu)勢(shì)估計(jì)(Group-relative Advantage) :







      為便于闡述理論結(jié)論,下文中我們忽略標(biāo)準(zhǔn)化項(xiàng)。為了分析組內(nèi)優(yōu)勢(shì)估計(jì)的統(tǒng)計(jì)性質(zhì),我們需要引入策略在給定提示下的真實(shí)期望表現(xiàn)和優(yōu)勢(shì),并將其作為后續(xù)討論的參照基準(zhǔn)。

      期望獎(jiǎng)勵(lì):



      期望優(yōu)勢(shì):



      為了刻畫不同提示在訓(xùn)練中所處的難易程度,并分析偏差在不同難度區(qū)域的行為差異,我們引入如下基于期望獎(jiǎng)勵(lì)的題目難度定義。

      題目難度:



      最后,在基于組的策略優(yōu)化方法中,并非所有采樣組都會(huì)對(duì)參數(shù)更新產(chǎn)生有效貢獻(xiàn)。為聚焦于真正驅(qū)動(dòng)學(xué)習(xí)的情形,我們需要顯式排除那些導(dǎo)致梯度消失的退化情況。

      非退化梯度事件:

      R 表示獎(jiǎng)勵(lì)總和:







      從而導(dǎo)致梯度消失,參數(shù)不發(fā)生更新。實(shí)踐中,這類退化組不提供有效學(xué)習(xí)信號(hào),通常被 GRPO 及其變體顯式或隱式地忽略。因此,我們將分析聚焦于實(shí)際驅(qū)動(dòng)學(xué)習(xí)的有效更新區(qū)間,即至少存在一個(gè)非零優(yōu)勢(shì)的情形。形式化地,定義非退化事件:



      對(duì) S 進(jìn)行條件化并不會(huì)改變優(yōu)化目標(biāo)或訓(xùn)練軌跡,而僅刻畫那些真正參與參數(shù)更新的樣本子集,使我們能夠精確分析組相對(duì)優(yōu)勢(shì)估計(jì)中的系統(tǒng)性偏差。

      核心發(fā)現(xiàn)

      重要發(fā)現(xiàn) 1:





      這一結(jié)論表明,組相對(duì)優(yōu)勢(shì)的偏差并非由有限采樣噪聲引起,而是源自其相對(duì)優(yōu)勢(shì)估計(jì)機(jī)制本身,且與提示難度密切相關(guān)。





      在相同的提示難度下,G 越小,優(yōu)勢(shì)估計(jì)偏差越大;隨著 G 的增加,偏差雖有所緩解,但在有限采樣范圍內(nèi)仍然不可忽略。

      舉例 1:



      舉例 2:



      該圖展示了在 MATH 數(shù)據(jù)集上,對(duì)于同一道困難題目,組相對(duì)優(yōu)勢(shì)估計(jì)在不同回答采樣數(shù)量下的表現(xiàn)差異。當(dāng)采用 8 次采樣時(shí),對(duì)正確回答所計(jì)算得到的優(yōu)勢(shì)為 A=2.65;而當(dāng)采樣數(shù)量提升至 128 次時(shí),所估計(jì)的優(yōu)勢(shì)增大至 A=3.64,更接近其真實(shí)優(yōu)勢(shì)值。

      重要發(fā)現(xiàn) 2:





      論文也提供具體偏差量估計(jì):



      總結(jié)



      具體而言,該估計(jì)方法會(huì)對(duì)困難提示系統(tǒng)性地低估真實(shí)優(yōu)勢(shì),而對(duì)簡(jiǎn)單提示系統(tǒng)性地高估真實(shí)優(yōu)勢(shì)。進(jìn)一步地,對(duì)于極其困難的提示,優(yōu)勢(shì)估計(jì)必然被低估;而對(duì)于極其簡(jiǎn)單的提示,則必然被高估。

      盡管上述分析主要基于0–1 二值獎(jiǎng)勵(lì)的設(shè)定,該假設(shè)覆蓋了大量 RLVR 場(chǎng)景,尤其是依賴硬判別 verifier 的推理任務(wù),但真實(shí)應(yīng)用中的獎(jiǎng)勵(lì)信號(hào)往往更加一般。

      為此,論文在附錄 D.5 中將分析推廣至連續(xù)且有界的獎(jiǎng)勵(lì)分布。

      結(jié)果表明,組相對(duì)優(yōu)勢(shì)估計(jì)中的核心偏差現(xiàn)象并非 Bernoulli 獎(jiǎng)勵(lì)假設(shè)的偶然產(chǎn)物,而是在更廣泛的有界獎(jiǎng)勵(lì)模型中同樣普遍存在。

      這個(gè)發(fā)現(xiàn)告訴我們什么

      該發(fā)現(xiàn)對(duì) RLVR 訓(xùn)練具有直接而深遠(yuǎn)的影響。

      具體而言,組相對(duì)優(yōu)勢(shì)估計(jì)的系統(tǒng)性偏差會(huì)導(dǎo)致不同難度提示在學(xué)習(xí)過程中受到不平衡的梯度信號(hào):對(duì)于困難提示,其真實(shí)優(yōu)勢(shì)被低估,從而產(chǎn)生較小的梯度更新,導(dǎo)致學(xué)習(xí)進(jìn)展緩慢;而對(duì)于簡(jiǎn)單提示,其優(yōu)勢(shì)被高估,模型則容易對(duì)其過度強(qiáng)化。最終,這種不對(duì)稱的優(yōu)勢(shì)估計(jì)會(huì)抑制有效探索,使訓(xùn)練過程偏向于反復(fù)強(qiáng)化簡(jiǎn)單樣本,而忽視真正具有挑戰(zhàn)性的提示。

      基于上述分析,我們認(rèn)為優(yōu)勢(shì)估計(jì)應(yīng)當(dāng)根據(jù)提示難度進(jìn)行自適應(yīng)調(diào)整:對(duì)于困難提示,應(yīng)適當(dāng)放大其估計(jì)優(yōu)勢(shì)以鼓勵(lì)探索;而對(duì)于簡(jiǎn)單提示,則應(yīng)抑制其優(yōu)勢(shì)以防止過度利用。

      為在實(shí)踐中判定提示難度,論文提出算法HA-DW,引入短期歷史平均獎(jiǎng)勵(lì)作為動(dòng)態(tài)錨點(diǎn),將新提示與該錨點(diǎn)進(jìn)行對(duì)比,從而判斷其相對(duì)難度,并據(jù)此對(duì)優(yōu)勢(shì)估計(jì)進(jìn)行自適應(yīng)重加權(quán)。



      該圖展示了在對(duì)組相對(duì)優(yōu)勢(shì)估計(jì)進(jìn)行校正之后,不同難度提示上的性能變化。可以觀察到,引入優(yōu)勢(shì)校正機(jī)制后(GRPO+HA-DW),模型在困難提示(Hard)上的性能提升最為顯著,相比原始 GRPO 提升了 3.4%。

      GRPO/Group-based PO 的問題不只是 variance,而是 bias。這項(xiàng)工作也釋放了一個(gè)很強(qiáng)的信號(hào):LLM 強(qiáng)化學(xué)習(xí)正在從「工程上能跑出效果就行」,回到「估計(jì)是不是準(zhǔn)確」的根本問題和可解釋性。以后 RLVR 里,bias analysis /estimator correctness 很可能會(huì)成為標(biāo)配。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      人在醫(yī)院能愚蠢到啥程度?網(wǎng)友:完美詮釋了不作不死的真義

      人在醫(yī)院能愚蠢到啥程度?網(wǎng)友:完美詮釋了不作不死的真義

      帶你感受人間冷暖
      2026-01-27 00:10:05
      這算不算是頂級(jí)陽謀?修建廈金大橋臺(tái)當(dāng)局不同意,我們是照修不誤

      這算不算是頂級(jí)陽謀?修建廈金大橋臺(tái)當(dāng)局不同意,我們是照修不誤

      百態(tài)人間
      2026-01-29 16:04:26
      人為財(cái)死9:舊怨新仇兩相撞

      人為財(cái)死9:舊怨新仇兩相撞

      金昔說故事
      2026-01-30 20:20:53
      扛不住了,很多醫(yī)院開始降薪清退員工!

      扛不住了,很多醫(yī)院開始降薪清退員工!

      黯泉
      2026-01-29 22:28:12
      錢再多也沒用,林子祥葉倩文如今現(xiàn)狀,給“老少戀”夫妻提了個(gè)醒

      錢再多也沒用,林子祥葉倩文如今現(xiàn)狀,給“老少戀”夫妻提了個(gè)醒

      查爾菲的筆記
      2026-01-24 20:06:02
      趙麗穎初中同學(xué)爆舊照,整容傳聞不攻自破,網(wǎng)友:等比例長(zhǎng)大!

      趙麗穎初中同學(xué)爆舊照,整容傳聞不攻自破,網(wǎng)友:等比例長(zhǎng)大!

      傲傲講歷史
      2025-12-26 20:18:04
      伊朗已被包圍,美軍開戰(zhàn)前,普京派人來探中方口風(fēng),董軍斬釘截鐵

      伊朗已被包圍,美軍開戰(zhàn)前,普京派人來探中方口風(fēng),董軍斬釘截鐵

      王觪曉
      2026-01-30 12:41:56
      趙麗穎和趙德胤分手了?男方與前女友復(fù)合拍新片,沒和趙麗穎二搭

      趙麗穎和趙德胤分手了?男方與前女友復(fù)合拍新片,沒和趙麗穎二搭

      萌神木木
      2026-01-30 16:44:57
      過氣男頂流淪為酒局“工具人”!全程討好、倒酒賠笑,像一個(gè)商品

      過氣男頂流淪為酒局“工具人”!全程討好、倒酒賠笑,像一個(gè)商品

      涵豆說娛
      2026-01-19 18:16:27
      江蘇一地發(fā)布領(lǐng)導(dǎo)干部任前公示

      江蘇一地發(fā)布領(lǐng)導(dǎo)干部任前公示

      黃河新聞網(wǎng)呂梁頻道
      2026-01-30 09:30:24
      36歲唇腭裂患者每天直播8小時(shí)聲援嫣然醫(yī)院,李亞鵬在極目新聞視頻下暖心回應(yīng)

      36歲唇腭裂患者每天直播8小時(shí)聲援嫣然醫(yī)院,李亞鵬在極目新聞視頻下暖心回應(yīng)

      極目新聞
      2026-01-30 16:28:21
      韓星夫婦豪宅首度曝光,奢華程度驚呆網(wǎng)友!二胎得女雙喜臨門!

      韓星夫婦豪宅首度曝光,奢華程度驚呆網(wǎng)友!二胎得女雙喜臨門!

      聽風(fēng)喃
      2026-01-30 13:46:26
      巨虧14億!空調(diào)大王跌落神壇,曾叫板董明珠造最好空調(diào),現(xiàn)成老賴

      巨虧14億!空調(diào)大王跌落神壇,曾叫板董明珠造最好空調(diào),現(xiàn)成老賴

      樂天閑聊
      2026-01-30 14:31:53
      特斯拉智駕,鐮刀終落下

      特斯拉智駕,鐮刀終落下

      汽車公社
      2026-01-30 08:36:52
      一落千丈!前歐冠冠軍主力前鋒被賤賣 29歲被200萬歐遣散

      一落千丈!前歐冠冠軍主力前鋒被賤賣 29歲被200萬歐遣散

      新英體育
      2026-01-30 10:56:01
      歐聯(lián)淘汰賽附加賽對(duì)陣:森林vs費(fèi)內(nèi)巴切,斯圖加特vs凱爾特人

      歐聯(lián)淘汰賽附加賽對(duì)陣:森林vs費(fèi)內(nèi)巴切,斯圖加特vs凱爾特人

      懂球帝
      2026-01-30 20:33:10
      “尼帕病毒”來勢(shì)洶洶,建議:每家備好6樣?xùn)|西,關(guān)鍵時(shí)刻能救命

      “尼帕病毒”來勢(shì)洶洶,建議:每家備好6樣?xùn)|西,關(guān)鍵時(shí)刻能救命

      路醫(yī)生健康科普
      2026-01-28 12:18:49
      "第一軟飯男"去世了,伺候美國老婦13年,繼承268億,死后錢給誰

      "第一軟飯男"去世了,伺候美國老婦13年,繼承268億,死后錢給誰

      毒sir財(cái)經(jīng)
      2025-12-08 22:57:40
      貝克漢姆14歲女兒挎香奈兒,卻也比父母節(jié)儉,不上學(xué)引發(fā)爭(zhēng)議

      貝克漢姆14歲女兒挎香奈兒,卻也比父母節(jié)儉,不上學(xué)引發(fā)爭(zhēng)議

      手工制作阿殲
      2026-01-30 10:38:43
      不到24小時(shí),美軍連夜通告全球,伊朗沒想到,特朗普敢做得這么絕

      不到24小時(shí),美軍連夜通告全球,伊朗沒想到,特朗普敢做得這么絕

      書紀(jì)文譚
      2026-01-30 12:22:42
      2026-01-30 20:48:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12225文章數(shù) 142556關(guān)注度
      往期回顧 全部

      科技要聞

      意念控制機(jī)器人不是科幻 1-2年就落地

      頭條要聞

      澤連斯基:我邀請(qǐng)普京來基輔 不可能在莫斯科與他會(huì)面

      頭條要聞

      澤連斯基:我邀請(qǐng)普京來基輔 不可能在莫斯科與他會(huì)面

      體育要聞

      “假賭黑”的子彈,還要再飛一會(huì)兒?jiǎn)幔?/h3>

      娛樂要聞

      金晨出事前 曾靈魂發(fā)問未收到春晚邀請(qǐng)

      財(cái)經(jīng)要聞

      金銀閃崩,是調(diào)整還是趨勢(shì)反轉(zhuǎn)的開始?

      汽車要聞

      合資品牌首搭800V/5C快充 東風(fēng)日產(chǎn)NX8將于3、4月上市

      態(tài)度原創(chuàng)

      本地
      時(shí)尚
      手機(jī)
      藝術(shù)
      公開課

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      買10件退9件?到底怎么買紅衣服才能不踩雷

      手機(jī)要聞

      3.07億部!2025手機(jī)出貨量揭曉,蘋果、小米成大贏家?

      藝術(shù)要聞

      風(fēng)景畫選刊 | 中國油畫學(xué)會(huì)三十年藝術(shù)展

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版