網易首頁 > 網易號 > 正文申請入駐

DeepSeek的GRPO會導致模型崩潰？看下Qwen3新范式GSPO

2025-08-07 17:42:34　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

眾所周知，大型語言模型的訓練通常分為兩個階段。第一階段是「預訓練」，開發(fā)者利用大規(guī)模文本數據集訓練模型，讓它學會預測句子中的下一個詞。第二階段是「后訓練」，旨在教會模型如何更好地理解和執(zhí)行人類指令。

在 LLM 后訓練階段，似乎是一個強化學習的特殊形式。用于大語言模型（LLMs）微調的強化學習（RL）算法正沿著一條明確的演進路徑持續(xù)發(fā)展。

起初，OpenAI 開創(chuàng)了一種名為基于人類反饋的強化學習（RLHF）的技術，用于改進 ChatGPT。RLHF 的核心是讓人類標注員對模型生成的多種響應進行打分，并選出最優(yōu)答案作為訓練參考。這一過程雖然有效，但也耗時、昂貴且依賴人力，通常需要一支小型但專業(yè)的數據標注團隊。

DeepSeek 的重要創(chuàng)新在于用 RL 技術自動化了這一環(huán)節(jié)。算法不再依賴人工逐一評估，而是讓模型在探索過程中，通過獲得「獎勵信號」自主學習正確行為，從而顯著降低了成本，提高了效率，最終能以較低的成本實現高性能。

OpenAI 在 ChatGPT 的訓練中采用了近端策略優(yōu)化（Proximal Policy Optimization, PPO）

而 DeepSeek 團隊則認為，在一組樣本中進行價值估計更加有效，因此提出了組相對策略優(yōu)化（Group Relative Policy Optimization, GRPO）算法，這也是 DeepSeek-R1 中的核心技術，使 DeepSeek-R1 模型大放異彩。

GPRO 與 PPO 的對比，摘自 DeepSeekMath 論文。

在幾個月前 Qwen3 首次亮相的時候，其旗艦模型的性能就已經與 DeepSeek-R1、o3-mini、Gemini 2.5 Pro 等頂級模型表現相當。除此以外，Qwen3 系列模型覆蓋了 MoE 模型和密集模型，每一款模型又有許多細分版本。

近些天，Qwen3 系列模型仍然在不停的迭代更新，例如 Qwen3-235B-A22B-Instruct-2507-FP8 在知識數學、編程、人類偏好對齊、Agent 能力等眾多測評中表現出色，甚至了超過 Kimi-K2、DeepSeek-V3 等頂級開源模型以及 Claude-Opus4-Non-thinking 等領先閉源模型。

最近，Qwen 團隊發(fā)布了一篇有關其模型后訓練算法的論文，似乎揭示了 Qwen3 模型成功的核心技術細節(jié)。

論文標題：Group Sequence Policy Optimization
論文鏈接：https://huggingface.co/papers/2507.18071
博客鏈接：https://qwenlm.github.io/blog/gspo/

而在昨天，來自清華大學校友創(chuàng)立的創(chuàng)業(yè)公司 NetMind.AI發(fā)表了一篇博客，題為《Qwen Team Proposes GSPO for Qwen3, Claims DeepSeek's GRPO is Ill-Posed》，對 Qwen 團隊為 Qwen3 模型提出的 GSPO 算法進行了詳盡的介紹與分析。

博客鏈接：https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek's_GRPO_is_Ill-Posed

最近 Qwen 的研究表明，使用 GRPO 訓練大語言模型時存在嚴重的穩(wěn)定性問題，往往會導致模型不可逆地崩潰。他們認為 DeepSeek 的 GPRO 方法存在一些嚴重問題：

在每個 token 級別應用重要性采樣，會在長序列中積累高方差，導致訓練不穩(wěn)定
這一問題在專家混合模型（Mixture-of-Experts, MoE）中尤為嚴重，因為token 級別的路由變化會加劇不穩(wěn)定性
為緩解這一問題，基于 GRPO 的訓練流程通常需要依賴一些額外策略，例如路由重放（Routing Replay）。

因此，Qwen 團隊聲稱 GRPO 的 token 級重要性采樣無法達到穩(wěn)定訓練，其優(yōu)化目標是「病態(tài)的（ill-posed）」

為了解決這些問題并訓練其最新的 Qwen3 系列模型，Qwen 團隊提出了一種新的強化學習算法 ——組序列策略優(yōu)化（Group Sequence Policy Optimization, GSPO）

GRPO 的根本問題：

「逐 token 重要性采樣」的不穩(wěn)定性

Qwen 團隊指出，GRPO 的不穩(wěn)定性源于其對 token 級重要性采樣權重的錯誤使用。在強化學習中，重要性采樣（Importance Sampling）用于校正行為策略（即用于收集訓練數據的策略）與目標策略（當前正在優(yōu)化的策略）之間的差異。

當兩者不一致時，重要性采樣通過為已有數據樣本賦予權重，使其更能代表當前希望優(yōu)化的目標策略，從而提高訓練的穩(wěn)定性與有效性。

在大語言模型（LLMs）的訓練中，強化學習常常會復用舊策略生成的響應，以節(jié)省計算資源，這屬于典型的「離策略」（off-policy）訓練場景。重要性采樣正是用于緩解這種策略不匹配帶來的影響，并幫助穩(wěn)定訓練過程。

然而，GRPO 將重要性采樣的權重應用在每一個 token 上，而非整個生成的序列。這種做法會帶來顯著的方差，并在生成較長序列時造成「誤差積累」與「訓練不穩(wěn)定性」。

從形式上講，GRPO 是在每一個 token 的生成步驟上單獨計算重要性權重的：

Qwen 團隊指出，當在訓練目標中應用此類重要性權重時，由于每個 token 的比值是獨立計算的，會導致高方差的累積，從而破壞梯度穩(wěn)定性，最終引發(fā)模型崩潰。

同時，這種做法會將高方差噪聲引入訓練梯度中，尤其在長序列上呈現累積效應，并且在存在「裁剪機制」時，這種不穩(wěn)定性問題會進一步加劇。

Qwen 團隊的實驗證據

Qwen 團隊通過實驗證據驗證了其理論分析，如圖所示。

在所有展示的實驗場景中，其新提出的算法 GSPO 均表現出比 GRPO 更高的訓練效率。在 CodeForces 任務中，GRPO 的最終得分收斂于 2000 分以下，而 GSPO 隨著訓練計算量的增加持續(xù)提升成績，展現出更強的「可擴展性」。

GSPO 與 GRPO 的訓練曲線對比

Qwen 的解決方案：

「序列級重要性采樣」

那么，GSPO 是如何解決上述問題的呢？

正如其名稱所暗示的，GSPO 的核心在于將重要性采樣從 token 級轉移至序列級，其重要性比值基于整個序列的似然度計算：

這種采樣權重的設計自然地緩解了逐 token 方差的累積問題，從而顯著提升了訓練過程的穩(wěn)定性。

需要注意的是，指數中的因子用于「長度歸一化」。如果不進行長度歸一化，僅僅幾個 token 的似然變化就可能導致序列級重要性比值的劇烈波動，而不同長度的生成響應在目標函數中也將需要不同的裁剪范圍，這會進一步增加訓練的不穩(wěn)定性。

實驗驗證的優(yōu)勢：

簡化 MoE 模型訓練

針對專家混合模型（MoE）所進行的專項實驗進一步強調了 GSPO 的優(yōu)勢。

由于 MoE 模型具有稀疏激活特性，這會在使用 GRPO 時進一步加劇訓練過程中的不穩(wěn)定性。在經過一次或多次梯度更新后，相同響應所激活的專家網絡可能發(fā)生顯著變化。

Qwen 團隊在使用 GRPO 訓練 48 層的 Qwen3-30B-A3B-Base 模型時發(fā)現：在每一次強化學習的梯度更新后，對于相同的 rollout 樣本，新策略所激活的專家中約有 10% 與舊策略所激活的專家不同。這實際上意味著，每次梯度更新后，你都在用不同的數據樣本訓練不同的模型，毫無疑問這是一種極其低效的訓練方式。

在引入 GSPO 之前，為緩解這一問題，他們甚至采取了一種名為「Routing Replay」的技巧，即強制目標策略激活與舊策略相同的專家網絡。

相比之下，GSPO 無需使用 Routing Replay 也能實現穩(wěn)定收斂，從而消除了不必要的訓練復雜性，并保留了 MoE 架構的全部潛力。

Routing Replay 策略在 GRPO 訓練 MoE 模型的正常收斂中起到了關鍵作用

結論：

GSPO 或將成為新的標準

總結一下，GSPO 的方法有兩點創(chuàng)新：

將重要性采樣從 token 級別提升到序列級別，并通過序列長度進行歸一化處理；
顯著降低了方差，同時消除了對「路由技巧」（如 Routing Replay）等輔助策略的依賴；

業(yè)界已普遍達成共識 —— 在大語言模型的后訓練階段引入強化學習，對于提升其推理能力至關重要。

而論文中的大量實驗結果也進一步證實，GRPO 所采用的「逐 token 重要性采樣」方法存在不穩(wěn)定性和低效性的問題。

因此，GSPO 提出的「序列級重要性采樣」很可能會成為未來后訓練強化學習的新標準。

https://www.reddit.com/r/MachineLearning/comments/1mj3t3r/d_gspo_qwen3s_sequencelevel_rlhf_method_vs_grpo/

https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek's_GRPO_is_Ill-Posed

https://www.ft.com/content/ea803121-196f-4c61-ab70-93b38043836e?utm_source=chatgpt.com

https://zhuanlan.zhihu.com/p/22845155602

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.