網易首頁 > 網易號 > 正文申請入駐

Proximal SFT：用PPO強化學習機制優化SFT，讓大模型訓練更穩定

2025-09-08 21:15:36　來源: deephub

北京舉報

分享至

監督微調（SFT）基本上是現在訓練大模型時必走的路。不管你要讓模型干什么，先用 SFT 讓它學會基本的指令跟隨和對話能力，然后再通過 PPO 或者 GRPO 這些強化學習方法進一步調優。

但 SFT 有個老毛病：容易過擬合。模型會死記硬背訓練數據，泛化能力變差。更要命的是，經過 SFT 訓練的模型在后續的強化學習階段往往探索能力不足，這就是所謂的"熵坍塌"現象 - 模型變得過于確定，生成的內容單調乏味。

這篇論文提出了 Proximal Supervised Fine-Tuning (PSFT)，本質上是把 PPO 的思路引入到 SFT 中。這個想法挺巧妙的：既然 PPO 能夠穩定策略更新，那為什么不用類似的機制來穩定監督學習的參數更新呢？

SFT 到底在做什么

先說說傳統的監督微調怎么回事。SFT 就是拿一堆（提示，回答）這樣的數據對，讓模型學會從提示生成對應的回答。

最小化模型預測的 token 分布和真實 token 之間的交叉熵損失。但問題在于，如果訓練數據和預訓練數據的分布差異比較大，每一步的參數更新可能都很激進，導致模型忘記之前學到的通用能力。

PPO vs. GRPO

這種激進更新還會引發熵坍塌。簡單說就是模型在選擇下一個 token 時變得過于自信，幾乎沒有不確定性。這樣一來，模型生成的內容就會變得非常可預測，缺乏多樣性。更糟的是這種低熵狀態會讓模型在后續的強化學習訓練中失去探索新策略的能力。

從強化學習的角度看語言建模

要理解 PSFT，得先把語言生成過程理解成一個馬爾可夫決策過程（MDP）。這聽起來很抽象，但其實挺直觀的：

在語言生成的 MDP 中，狀態空間包含智能體可能處于的所有可能狀態，動作空間包含智能體可以采取的所有可能動作或移動，轉移概率 P(s'|s, a) 表示當智能體采取動作 a 時，從狀態 s 移動到 s' 的可能性。

具體到語言模型：狀態 s(t) 就是當前的上下文（輸入 query 加上已經生成的所有 token），動作 a(t) 就是要生成的下一個 token，轉移概率是確定性的（等于1），因為選定 token 后新狀態就確定了。

大語言模型的輸出分布 π(θ) 就是我們的策略。對于輸入 x，模型生成輸出 y 的聯合概率是：

給定查詢 'x' 生成輸出 'y' 的聯合概率是在每個時間步 't' 給定其前置上下文 (y(

SFT 的損失函數就是標準的交叉熵：

每個提示-完成對 (x, y) 的 SFT 損失

這里 y(t) 是時間步 t 的生成令牌，n 是生成令牌的總數，y(

對整個訓練集，SFT 損失可以寫成：

訓練期間使用梯度下降最小化的 SFT 損失

這里 s(t) 是時間步 t 的上下文，a*(t) 表示正確的下一個令牌。

SFT 其實是策略梯度的特例

強化學習里有三大類算法：基于價值的方法（比如 Q-learning）、策略梯度方法（比如 REINFORCE）、還有混合方法（比如 Actor-Critic）。

策略梯度方法的目標函數是：

強化學習訓練期間使用梯度上升最大化的策略梯度目標

這里 s(t), a(t) 是從當前策略采樣的狀態-動作對，log π(θ)(a(t)|s(t)) 是策略采取動作的對數概率，?(t) 是優勢函數，告訴我們這個動作比平均水平好多少。

優勢函數是在特定狀態下采取動作的 Q 函數與給定狀態的價值函數之間的差值。

如果 ?(t) > 0，說明這個動作比預期好，訓練會增加它的概率。

仔細看看，SFT 其實就是策略梯度的簡化版本：

SFT 損失 vs. 策略梯度目標

區別在于：SFT 不是從策略采樣軌跡，而是從固定數據集采樣；SFT 把優勢函數固定為 1，也就是假設數據集里的動作都是"好的"。

從 REINFORCE 到 PPO

傳統的策略梯度方法比如 REINFORCE 有個問題：如果某一步更新太大，新策略可能偏離舊策略太遠，導致訓練不穩定。

TRPO（信任區域策略優化）通過引入 KL 散度約束來解決這個問題：

TRPO 的代理目標（保守策略迭代）目標，在強化學習訓練期間使用梯度上升最大化，其中 r(t)(θ) 是重要性采樣比率。

這里用重要性采樣來修正新舊策略之間的差異，同時用 KL 散度約束來限制更新幅度：

在 TRPO 中，代理目標在使用新策略 π(θ) 和舊策略 π(θ)(old) 之間的 KL 散度對策略更新大小的約束下最大化。

但 TRPO 計算量太大，不太實用。PPO 就簡單多了，直接在目標函數里加個 clipping：

PPO 中最大化的裁剪代理目標，其中 r(t)(θ) 是重要性采樣比率，? 通常是一個小值（例如，0.2）。在 TRPO 和 PPO 中，優勢 ?(t) 的近似值使用廣義優勢估計（GAE）計算。

近端策略優化

PPO 通過裁剪重要性采樣比率來防止策略更新過大，既簡單又有效。

PSFT：給 SFT 加上 PPO 的穩定性

既然知道了 SFT 是策略梯度的特例，那我們能不能給它也加上 PPO 的穩定性機制？答案就是 PSFT。

PSFT 的目標函數是：

近似監督微調（PSFT）目標

展開重要性采樣比率：

展開的近似監督微調（PSFT）目標

這個設計很巧妙：通過比較新舊策略的概率比值并進行裁剪，PSFT 能夠防止模型參數更新過于激進。這樣既能學習新任務，又能保持原有的通用能力，同時避免熵坍塌。

實驗效果怎么樣

研究者在 Qwen2.5-7B-Instruct 和 Llama3.1-8B-Instruct 上做了實驗，主要看數學推理能力的提升。

首先是熵的變化。PSFT 能夠維持更平滑的熵曲線，避免了傳統 SFT 中的熵坍塌現象：

顯示兩個大語言模型在訓練期間熵的圖。SFT-KL是一種應用 KL 懲罰以保持微調模型更接近預訓練模型分布的方法。PSFT (warm-up)是一種在切換到 PSFT 之前開始短暫的初始 SFT 階段的方法，用于訓練穩定性。

在域內數學任務上，PSFT 的表現至少和標準 SFT 持平，在某些情況下還更好：

顯示域內性能訓練動態的圖

域內性能的結果，其中對于 AIME 和 AMC 基準，結果是 avg@32。對于其余的，結果是 avg@8。

更重要的是域外性能。PSFT 訓練的模型在非數學任務上也表現很好，說明它確實提高了泛化能力：

顯示域外性能訓練動態的圖

域外性能的結果。對于 GPQA、ARC-C、TruthfulQA 和 IFEval，結果是 avg@8。對于其余的，結果是 pass@1。

在后續的強化學習訓練中，PSFT 訓練的模型保持了更高的熵，說明探索能力得到了保留：

顯示強化學習實驗中域內性能訓練動態的圖

強化學習實驗中域內性能的結果

強化學習實驗中域外性能的結果

PSFT 的優勢不只體現在數學推理上，在模型對齊方面也有幫助。用 DPO 進行對齊訓練時，PSFT 預訓練的模型表現更穩定：

顯示 SFT/PSFT 后跟 DPO 的對齊訓練期間熵演變的圖

在各種對齊基準上，PSFT 都比傳統 SFT 表現更好：

在不同對齊基準上對 Qwen3–4B-Base 進行 DPO 訓練的結果。PSFT(prolong)是 PSFT 的擴展版本，繼續訓練更多步驟。

總結

PSFT 本質上是把強化學習中穩定策略更新的思想引入到監督學習中。通過借鑒 PPO 的裁剪機制，PSFT 能夠：

防止模型參數更新過于激進
保持模型的通用能力和探索性
避免熵坍塌現象
為后續的強化學習訓練打下更好的基礎

這個工作挺有意思的，它展示了監督學習和強化學習之間深層的聯系。更重要的是，它提供了一個簡單有效的方法來改善現有的訓練流程。如果你正在做大模型的訓練工作，PSFT 絕對值得試試。

https://avoid.overfit.cn/post/e933ddbf941a4530b7bf09782c70bbea

作者：Dr. Ashish Bamania

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

這一個Tab鍵，我愿意單獨付費：Cursor在線強化學習優化代碼建議

機器之心Pro 2025-09-15 10:35:28
0 跟貼 0
LLaVA-OneVision-1.5開源，8B模型預訓練只需4天、1.6萬美元

機器之心Pro 2025-10-13 18:37:02
0 跟貼 0

VinciCoder：多模態統一代碼生成框架和視覺反饋強化學習

機器之心Pro 2025-11-17 14:12:38
0 跟貼 0

架構解耦是統一多模態模型所必須的嗎？全新AIA損失：No

機器之心Pro 2025-12-02 14:25:38
0 跟貼 0
GPT-5.4「原生操控電腦」實測封神！OpenClaw天選模型來了

新智元 2026-03-06 10:35:47
39 跟貼 39

FlashAttention-4正式發布：算法流水線大改，矩陣乘法級速度

機器之心Pro 2026-03-06 14:48:35
0 跟貼 0

劍指世界模型！商湯發多模態理解生成一體化架構，無需編碼器“玩轉”圖像

智東西 2026-03-06 20:12:11
0 跟貼 0
AGILE：自監督+交互式強化學習助力VLMs感知與推理全面提升

機器之心Pro 2025-10-20 18:30:03
0 跟貼 0

象棋大師三步棄馬飛刀進攻策略

隱龍天下o 2026-03-05 15:12:30
0 跟貼 0
2026年，大模型訓練的下半場屬于「強化學習云」

機器之心Pro 2026-01-12 14:03:47
0 跟貼 0
汽車行駛途中突然"斷電" 車輛瞬間失去動力一家人嚇傻

大風新聞 2026-03-06 13:45:07
7094 跟貼 7094
剛下飛機行李就沒了！杭州姑娘花10多萬去南極旅游卻崩潰：衣物全靠借

環球網資訊 2026-03-03 08:53:57
5886 跟貼 5886
發動機模型

制造科技 2026-03-04 18:55:15
0 跟貼 0
央行行長：中國股票市場在全球主要股市中表現較好

財聯社 2026-03-06 17:08:03
7609 跟貼 7609
機構：霍爾木茲海峽航運幾乎完全停滯

財聯社 2026-03-06 14:04:07
6664 跟貼 6664
字節Seed團隊發布循環語言模型Ouro，在預訓練階段直接「思考」

機器之心Pro 2025-11-04 11:58:36
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
15%全量Attention！「RTPurbo」阿里Qwen3長文本推理5倍壓縮方案

機器之心Pro 2025-12-23 12:52:34
0 跟貼 0
300萬AI悄悄「建國」？Nature長文：第一代AI社會正在成形

新智元 2026-03-06 19:15:39
0 跟貼 0
SFT遠不如RL？永不過時的剃刀原則打開終身學習大模型訓練的大門

機器之心Pro 2025-09-09 20:19:13
0 跟貼 0
男子犯困開智駕，以100km/h速度扎進施工區：事故發生后未能及時接管車輛，連撞30米長水馬都沒停，視頻曝光

大風新聞 2026-03-07 10:05:02
102 跟貼 102
開箱地表最強奧迪A6L，華為智能體+V6，這可太行了

汽車輿論 2026-03-05 11:05:12
0 跟貼 0
馬斯克都破防！王堅院士笑談美國電網：電的基礎設施制造業都在中國

界面新聞 2026-03-06 14:32:04
181 跟貼 181
租用無人機運棺材上山土葬，無人機運輸從業者：價格一萬出頭，一般運送的棺材約七八百斤，云貴川需求多

觀威海 2026-03-06 14:23:13
271 跟貼 271
女性展現完美曲線，這般身材讓人眼饞，誰看了能不心動

小心心看看 2026-03-03 16:21:15
2 跟貼 2
誰在消耗5萬億模型算力？

經濟觀察報 2026-03-07 10:32:05
0 跟貼 0
國外小姐姐做了個有趣的實驗，如何在街上吸引老大爺們的目光

預言爸爸旅行VLOG 2026-03-07 09:46:46
0 跟貼 0
中國女足3-0戰勝烏茲別克斯坦女足提前小組出線

央視新聞客戶端 2026-03-06 18:26:54
707 跟貼 707
AI 真能做研究嗎？UniPat AI 開源 UniScientist，用30B小模型給出肯定答案｜公司動態

鈦媒體APP 2026-03-05 21:17:09
1 跟貼 1
奶奶說手上有塊死肉怎么弄都不痛，孫女直接開始實驗

重慶熱點 2026-03-06 16:26:14
0 跟貼 0
PixelRefer ：讓AI從“看大圖”走向“看懂每個對象”

機器之心Pro 2025-11-11 12:49:23
0 跟貼 0
黑馬圖像模型被Nano Banana技術負責人點贊！

量子位 2026-03-06 22:34:17
0 跟貼 0
蒙牛全資控股公司銷售"陰陽包裝"產品客服稱無法監管

大風新聞 2026-03-06 18:30:13
1492 跟貼 1492
MiniMax來承包你的桌面了-4

機器之心Pro 2026-01-20 20:19:42
0 跟貼 0
生存游戲大挑戰，沒有算法全憑運氣，活下來就能一夜暴富

胖魚看劇 2026-03-06 10:09:16
1 跟貼 1
兩會現場，回應大家關心的AI問題：AI智能體不是對手，而是最強助手

周鴻祎 2026-03-06 21:46:21
0 跟貼 0
山姆1.38公斤冰塊賣37.9元，消費者稱比冰塊融化速度慢，而且顏值高，門店工作人員：銷量不錯，現貨極少

觀威海 2026-03-04 10:39:05
1313 跟貼 1313
今年高校畢業生預計1270萬

人民網-人民日報 2026-03-07 10:36:14
1736 跟貼 1736
首發免陪照護智能體迭代升級，廣東護理邁上智能化新階段

南方都市報 2026-03-06 21:40:08
0 跟貼 0
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0

獨家消息：西貝創始成員董俊義擔任CEO，賈國龍退幕后！門店管理層工資延發，店長廚師長全部降薪，“新CEO首要目標是讓公司活下來”

deephub

CV NLP和數據挖掘知識

1940文章數 1456關注度

往期回顧全部

針對"不敢休、不讓休"怪圈國家出手了

汽車要聞

逃離ICU，上汽通用“止血”企穩

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

房產

旅游

親子

軍事航空

手機 / 數碼

房產 / 家居

Proximal SFT：用PPO強化學習機制優化SFT，讓大模型訓練更穩定

OpenClaw爆火，六位"養蝦人"自述與AI共生

特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

塔圖姆歸來：凱爾特人的春之綠

周杰倫田馥甄的“JH戀” 被扒得底朝天

針對"不敢休、不讓休"怪圈 國家出手了

逃離ICU，上汽通用“止血”企穩

態度原創

兩會速遞｜教育部部長：將實施新一輪學生心理健康促進行動

傳統學區房熄火？2月海口二手房爆火的板塊竟然是…

文旅部部長：7名外國游客到上海旅游，買了40箱貨；“成為中國人”成了熱詞

六個月寶寶查出散光，原因竟是父母長期身旁玩手機，媽媽懵了：我一直以為他閉著眼就沒事

伊朗：使用無人機擊中美軍"林肯"號航母

針對"不敢休、不讓休"怪圈國家出手了