![]()
近年來,大模型在數(shù)學(xué)推理、代碼生成等任務(wù)上的突破,背后一個(gè)關(guān)鍵技術(shù)是RLVR(Reinforcement Learning with Verifiable Rewards)。
簡(jiǎn)單來說,RLVR 不是讓模型「聽人打分」,而是讓模型自己嘗試多種解法,然后用可驗(yàn)證的規(guī)則(如答案是否正確)來反向改進(jìn)自己。這使得模型能夠通過反復(fù)試錯(cuò)不斷變強(qiáng),被廣泛應(yīng)用于當(dāng)前最先進(jìn)的推理模型中。
在實(shí)際訓(xùn)練中,為了讓學(xué)習(xí)過程更穩(wěn)定、避免引入額外的價(jià)值網(wǎng)絡(luò),許多 RLVR 方法(如 GRPO)都會(huì)對(duì)同一個(gè)問題生成一組回答,并在組內(nèi)進(jìn)行相對(duì)比較。模型不是直接看「這個(gè)回答好不好」,而是看「它在這一組回答中相對(duì)好不好」,這就是所謂的組內(nèi)優(yōu)勢(shì)估計(jì)(group-relative advantage),也是目前幾乎所有 group-based 強(qiáng)化學(xué)習(xí)方法的核心設(shè)計(jì)。優(yōu)勢(shì)估計(jì)并不僅僅是一個(gè)「評(píng)估指標(biāo)」,而是直接決定策略梯度更新方向的核心信號(hào)。
然而,一個(gè)長(zhǎng)期被忽視的關(guān)鍵問題在于:組內(nèi)優(yōu)勢(shì)估計(jì)并不像人們通常直覺認(rèn)為的那樣是「近似無偏」的。
相反,北航、北大、UCB、美團(tuán)最新的工作揭示了,這種組內(nèi)優(yōu)勢(shì)估計(jì)在統(tǒng)計(jì)意義上存在明確且系統(tǒng)性的方向性偏差:困難題的優(yōu)勢(shì)會(huì)被持續(xù)低估,而簡(jiǎn)單題的優(yōu)勢(shì)則被不斷高估。
![]()
- 論文地址:https://arxiv.org/pdf/2601.08521
這一偏差帶來的后果往往十分隱蔽,卻極具破壞性。訓(xùn)練過程中,曲線表面上看似「穩(wěn)定收斂」,但模型實(shí)際上正在逐漸回避困難問題、轉(zhuǎn)而偏好簡(jiǎn)單樣本。隨著訓(xùn)練的推進(jìn),探索與利用之間的平衡被悄然打破,模型的泛化能力與長(zhǎng)期訓(xùn)練穩(wěn)定性也隨之下降。
更關(guān)鍵的是,這并非一個(gè)可以通過簡(jiǎn)單調(diào)整超參數(shù)來緩解的問題,而是組內(nèi)優(yōu)勢(shì)估計(jì)這一設(shè)計(jì)在統(tǒng)計(jì)結(jié)構(gòu)層面本身就存在的內(nèi)在缺陷。
定義
接下來,我們先引入若干必要的定義,以便于清晰表述后續(xù)的核心發(fā)現(xiàn)。我們首先給出最常用的組內(nèi)相對(duì)優(yōu)勢(shì)估計(jì)的數(shù)學(xué)定義。
組內(nèi)相對(duì)優(yōu)勢(shì)估計(jì)(Group-relative Advantage) :
![]()
![]()
![]()
為便于闡述理論結(jié)論,下文中我們忽略標(biāo)準(zhǔn)化項(xiàng)。為了分析組內(nèi)優(yōu)勢(shì)估計(jì)的統(tǒng)計(jì)性質(zhì),我們需要引入策略在給定提示下的真實(shí)期望表現(xiàn)和優(yōu)勢(shì),并將其作為后續(xù)討論的參照基準(zhǔn)。
期望獎(jiǎng)勵(lì):
![]()
期望優(yōu)勢(shì):
![]()
為了刻畫不同提示在訓(xùn)練中所處的難易程度,并分析偏差在不同難度區(qū)域的行為差異,我們引入如下基于期望獎(jiǎng)勵(lì)的題目難度定義。
題目難度:
![]()
最后,在基于組的策略優(yōu)化方法中,并非所有采樣組都會(huì)對(duì)參數(shù)更新產(chǎn)生有效貢獻(xiàn)。為聚焦于真正驅(qū)動(dòng)學(xué)習(xí)的情形,我們需要顯式排除那些導(dǎo)致梯度消失的退化情況。
非退化梯度事件:
R 表示獎(jiǎng)勵(lì)總和:
![]()
![]()
![]()
從而導(dǎo)致梯度消失,參數(shù)不發(fā)生更新。實(shí)踐中,這類退化組不提供有效學(xué)習(xí)信號(hào),通常被 GRPO 及其變體顯式或隱式地忽略。因此,我們將分析聚焦于實(shí)際驅(qū)動(dòng)學(xué)習(xí)的有效更新區(qū)間,即至少存在一個(gè)非零優(yōu)勢(shì)的情形。形式化地,定義非退化事件:
![]()
對(duì) S 進(jìn)行條件化并不會(huì)改變優(yōu)化目標(biāo)或訓(xùn)練軌跡,而僅刻畫那些真正參與參數(shù)更新的樣本子集,使我們能夠精確分析組相對(duì)優(yōu)勢(shì)估計(jì)中的系統(tǒng)性偏差。
核心發(fā)現(xiàn)
重要發(fā)現(xiàn) 1:
![]()
![]()
這一結(jié)論表明,組相對(duì)優(yōu)勢(shì)的偏差并非由有限采樣噪聲引起,而是源自其相對(duì)優(yōu)勢(shì)估計(jì)機(jī)制本身,且與提示難度密切相關(guān)。
![]()
![]()
在相同的提示難度下,G 越小,優(yōu)勢(shì)估計(jì)偏差越大;隨著 G 的增加,偏差雖有所緩解,但在有限采樣范圍內(nèi)仍然不可忽略。
舉例 1:
![]()
舉例 2:
![]()
該圖展示了在 MATH 數(shù)據(jù)集上,對(duì)于同一道困難題目,組相對(duì)優(yōu)勢(shì)估計(jì)在不同回答采樣數(shù)量下的表現(xiàn)差異。當(dāng)采用 8 次采樣時(shí),對(duì)正確回答所計(jì)算得到的優(yōu)勢(shì)為 A=2.65;而當(dāng)采樣數(shù)量提升至 128 次時(shí),所估計(jì)的優(yōu)勢(shì)增大至 A=3.64,更接近其真實(shí)優(yōu)勢(shì)值。
重要發(fā)現(xiàn) 2:
![]()
![]()
論文也提供具體偏差量估計(jì):
![]()
總結(jié)
![]()
具體而言,該估計(jì)方法會(huì)對(duì)困難提示系統(tǒng)性地低估真實(shí)優(yōu)勢(shì),而對(duì)簡(jiǎn)單提示系統(tǒng)性地高估真實(shí)優(yōu)勢(shì)。進(jìn)一步地,對(duì)于極其困難的提示,優(yōu)勢(shì)估計(jì)必然被低估;而對(duì)于極其簡(jiǎn)單的提示,則必然被高估。
盡管上述分析主要基于0–1 二值獎(jiǎng)勵(lì)的設(shè)定,該假設(shè)覆蓋了大量 RLVR 場(chǎng)景,尤其是依賴硬判別 verifier 的推理任務(wù),但真實(shí)應(yīng)用中的獎(jiǎng)勵(lì)信號(hào)往往更加一般。
為此,論文在附錄 D.5 中將分析推廣至連續(xù)且有界的獎(jiǎng)勵(lì)分布。
結(jié)果表明,組相對(duì)優(yōu)勢(shì)估計(jì)中的核心偏差現(xiàn)象并非 Bernoulli 獎(jiǎng)勵(lì)假設(shè)的偶然產(chǎn)物,而是在更廣泛的有界獎(jiǎng)勵(lì)模型中同樣普遍存在。
這個(gè)發(fā)現(xiàn)告訴我們什么
該發(fā)現(xiàn)對(duì) RLVR 訓(xùn)練具有直接而深遠(yuǎn)的影響。
具體而言,組相對(duì)優(yōu)勢(shì)估計(jì)的系統(tǒng)性偏差會(huì)導(dǎo)致不同難度提示在學(xué)習(xí)過程中受到不平衡的梯度信號(hào):對(duì)于困難提示,其真實(shí)優(yōu)勢(shì)被低估,從而產(chǎn)生較小的梯度更新,導(dǎo)致學(xué)習(xí)進(jìn)展緩慢;而對(duì)于簡(jiǎn)單提示,其優(yōu)勢(shì)被高估,模型則容易對(duì)其過度強(qiáng)化。最終,這種不對(duì)稱的優(yōu)勢(shì)估計(jì)會(huì)抑制有效探索,使訓(xùn)練過程偏向于反復(fù)強(qiáng)化簡(jiǎn)單樣本,而忽視真正具有挑戰(zhàn)性的提示。
基于上述分析,我們認(rèn)為優(yōu)勢(shì)估計(jì)應(yīng)當(dāng)根據(jù)提示難度進(jìn)行自適應(yīng)調(diào)整:對(duì)于困難提示,應(yīng)適當(dāng)放大其估計(jì)優(yōu)勢(shì)以鼓勵(lì)探索;而對(duì)于簡(jiǎn)單提示,則應(yīng)抑制其優(yōu)勢(shì)以防止過度利用。
為在實(shí)踐中判定提示難度,論文提出算法HA-DW,引入短期歷史平均獎(jiǎng)勵(lì)作為動(dòng)態(tài)錨點(diǎn),將新提示與該錨點(diǎn)進(jìn)行對(duì)比,從而判斷其相對(duì)難度,并據(jù)此對(duì)優(yōu)勢(shì)估計(jì)進(jìn)行自適應(yīng)重加權(quán)。
![]()
該圖展示了在對(duì)組相對(duì)優(yōu)勢(shì)估計(jì)進(jìn)行校正之后,不同難度提示上的性能變化。可以觀察到,引入優(yōu)勢(shì)校正機(jī)制后(GRPO+HA-DW),模型在困難提示(Hard)上的性能提升最為顯著,相比原始 GRPO 提升了 3.4%。
GRPO/Group-based PO 的問題不只是 variance,而是 bias。這項(xiàng)工作也釋放了一個(gè)很強(qiáng)的信號(hào):LLM 強(qiáng)化學(xué)習(xí)正在從「工程上能跑出效果就行」,回到「估計(jì)是不是準(zhǔn)確」的根本問題和可解釋性。以后 RLVR 里,bias analysis /estimator correctness 很可能會(huì)成為標(biāo)配。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.