<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek的GRPO會導致模型崩潰?看下Qwen3新范式GSPO

      0
      分享至



      機器之心報道

      機器之心編輯部

      眾所周知,大型語言模型的訓練通常分為兩個階段。第一階段是「預訓練」,開發(fā)者利用大規(guī)模文本數據集訓練模型,讓它學會預測句子中的下一個詞。第二階段是「后訓練」,旨在教會模型如何更好地理解和執(zhí)行人類指令。

      在 LLM 后訓練階段,似乎是一個強化學習的特殊形式。用于大語言模型(LLMs)微調的強化學習(RL)算法正沿著一條明確的演進路徑持續(xù)發(fā)展。

      起初,OpenAI 開創(chuàng)了一種名為 基于人類反饋的強化學習(RLHF)的技術,用于改進 ChatGPT。RLHF 的核心是讓人類標注員對模型生成的多種響應進行打分,并選出最優(yōu)答案作為訓練參考。這一過程雖然有效,但也耗時、昂貴且依賴人力,通常需要一支小型但專業(yè)的數據標注團隊。

      DeepSeek 的重要創(chuàng)新在于用 RL 技術自動化了這一環(huán)節(jié)。算法不再依賴人工逐一評估,而是讓模型在探索過程中,通過獲得「獎勵信號」自主學習正確行為,從而顯著降低了成本,提高了效率,最終能以較低的成本實現高性能。

      OpenAI 在 ChatGPT 的訓練中采用了近端策略優(yōu)化(Proximal Policy Optimization, PPO)

      而 DeepSeek 團隊 則認為,在一組樣本中進行價值估計更加有效,因此提出了組相對策略優(yōu)化(Group Relative Policy Optimization, GRPO)算法,這也是 DeepSeek-R1 中的核心技術,使 DeepSeek-R1 模型大放異彩。



      GPRO 與 PPO 的對比,摘自 DeepSeekMath 論文。

      在幾個月前 Qwen3 首次亮相的時候,其旗艦模型的性能就已經與 DeepSeek-R1、o3-mini、Gemini 2.5 Pro 等頂級模型表現相當。除此以外,Qwen3 系列模型覆蓋了 MoE 模型和密集模型,每一款模型又有許多細分版本。

      近些天,Qwen3 系列模型仍然在不停的迭代更新,例如 Qwen3-235B-A22B-Instruct-2507-FP8 在知識數學、編程、人類偏好對齊、Agent 能力等眾多測評中表現出色,甚至了超過 Kimi-K2、DeepSeek-V3 等頂級開源模型以及 Claude-Opus4-Non-thinking 等領先閉源模型。

      最近,Qwen 團隊發(fā)布了一篇有關其模型后訓練算法的論文,似乎揭示了 Qwen3 模型成功的核心技術細節(jié)。



      • 論文標題:Group Sequence Policy Optimization
      • 論文鏈接:https://huggingface.co/papers/2507.18071
      • 博客鏈接:https://qwenlm.github.io/blog/gspo/

      而在昨天,來自清華大學校友創(chuàng)立的創(chuàng)業(yè)公司 NetMind.AI發(fā)表了一篇博客,題為《Qwen Team Proposes GSPO for Qwen3, Claims DeepSeek's GRPO is Ill-Posed》,對 Qwen 團隊為 Qwen3 模型提出的 GSPO 算法進行了詳盡的介紹與分析。



      • 博客鏈接:https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek's_GRPO_is_Ill-Posed

      最近 Qwen 的研究表明,使用 GRPO 訓練大語言模型時存在嚴重的穩(wěn)定性問題,往往會導致模型不可逆地崩潰。他們認為 DeepSeek 的 GPRO 方法存在一些嚴重問題:

      • 在每個 token 級別應用重要性采樣,會在長序列中積累高方差,導致訓練不穩(wěn)定
      • 這一問題在 專家混合模型(Mixture-of-Experts, MoE) 中尤為嚴重,因為token 級別的路由變化會加劇不穩(wěn)定性
      • 為緩解這一問題,基于 GRPO 的訓練流程通常需要依賴一些額外策略,例如 路由重放(Routing Replay)。

      因此,Qwen 團隊聲稱 GRPO 的 token 級重要性采樣無法達到穩(wěn)定訓練,其優(yōu)化目標是「病態(tài)的(ill-posed)」

      為了解決這些問題并訓練其最新的 Qwen3 系列模型,Qwen 團隊提出了一種新的強化學習算法 ——組序列策略優(yōu)化(Group Sequence Policy Optimization, GSPO)

      GRPO 的根本問題:

      「逐 token 重要性采樣」的不穩(wěn)定性

      Qwen 團隊指出,GRPO 的不穩(wěn)定性源于其對 token 級重要性采樣權重的錯誤使用。在強化學習中,重要性采樣(Importance Sampling)用于校正行為策略(即用于收集訓練數據的策略)與目標策略(當前正在優(yōu)化的策略)之間的差異。

      當兩者不一致時,重要性采樣通過為已有數據樣本賦予權重,使其更能代表當前希望優(yōu)化的目標策略,從而提高訓練的穩(wěn)定性與有效性。

      在大語言模型(LLMs)的訓練中,強化學習常常會復用舊策略生成的響應,以節(jié)省計算資源,這屬于典型的「離策略」(off-policy)訓練場景。重要性采樣正是用于緩解這種策略不匹配帶來的影響,并幫助穩(wěn)定訓練過程。

      然而,GRPO 將重要性采樣的權重應用在每一個 token 上,而非整個生成的序列。這種做法會帶來顯著的方差,并在生成較長序列時造成「誤差積累」與「訓練不穩(wěn)定性」。

      從形式上講,GRPO 是在每一個 token 的生成步驟上單獨計算重要性權重的:



      Qwen 團隊指出,當在訓練目標中應用此類重要性權重時,由于每個 token 的比值是獨立計算的,會導致高方差的累積,從而破壞梯度穩(wěn)定性,最終引發(fā)模型崩潰。

      同時,這種做法會將高方差噪聲引入訓練梯度中,尤其在長序列上呈現累積效應,并且在存在「裁剪機制」時,這種不穩(wěn)定性問題會進一步加劇。

      Qwen 團隊的實驗證據

      Qwen 團隊通過實驗證據驗證了其理論分析,如圖所示。

      在所有展示的實驗場景中,其新提出的算法 GSPO 均表現出比 GRPO 更高的訓練效率。在 CodeForces 任務中,GRPO 的最終得分收斂于 2000 分以下,而 GSPO 隨著訓練計算量的增加持續(xù)提升成績,展現出更強的「可擴展性」。



      GSPO 與 GRPO 的訓練曲線對比

      Qwen 的解決方案:

      「序列級重要性采樣」

      那么,GSPO 是如何解決上述問題的呢?

      正如其名稱所暗示的,GSPO 的核心在于將重要性采樣從 token 級轉移至序列級,其重要性比值基于整個序列的似然度計算:



      這種采樣權重的設計自然地緩解了逐 token 方差的累積問題,從而顯著提升了訓練過程的穩(wěn)定性。

      需要注意的是,指數中的因子用于「長度歸一化」。如果不進行長度歸一化,僅僅幾個 token 的似然變化就可能導致序列級重要性比值的劇烈波動,而不同長度的生成響應在目標函數中也將需要不同的裁剪范圍,這會進一步增加訓練的不穩(wěn)定性。

      實驗驗證的優(yōu)勢:

      簡化 MoE 模型訓練

      針對專家混合模型(MoE)所進行的專項實驗進一步強調了 GSPO 的優(yōu)勢。

      由于 MoE 模型具有稀疏激活特性,這會在使用 GRPO 時進一步加劇訓練過程中的不穩(wěn)定性。在經過一次或多次梯度更新后,相同響應所激活的專家網絡可能發(fā)生顯著變化。

      Qwen 團隊在使用 GRPO 訓練 48 層的 Qwen3-30B-A3B-Base 模型時發(fā)現:在每一次強化學習的梯度更新后,對于相同的 rollout 樣本,新策略所激活的專家中約有 10% 與舊策略所激活的專家不同。這實際上意味著,每次梯度更新后,你都在用不同的數據樣本訓練不同的模型,毫無疑問這是一種極其低效的訓練方式。

      在引入 GSPO 之前,為緩解這一問題,他們甚至采取了一種名為「Routing Replay」的技巧,即強制目標策略激活與舊策略相同的專家網絡。

      相比之下,GSPO 無需使用 Routing Replay 也能實現穩(wěn)定收斂,從而消除了不必要的訓練復雜性,并保留了 MoE 架構的全部潛力。



      Routing Replay 策略在 GRPO 訓練 MoE 模型的正常收斂中起到了關鍵作用

      結論:

      GSPO 或將成為新的標準

      總結一下,GSPO 的方法有兩點創(chuàng)新:

      • 將重要性采樣從 token 級別提升到序列級別,并通過序列長度進行歸一化處理;
      • 顯著降低了方差,同時消除了對「路由技巧」(如 Routing Replay)等輔助策略的依賴;

      業(yè)界已普遍達成共識 —— 在大語言模型的后訓練階段引入強化學習,對于提升其推理能力至關重要。

      而論文中的大量實驗結果也進一步證實,GRPO 所采用的「逐 token 重要性采樣」方法存在不穩(wěn)定性和低效性的問題。

      因此,GSPO 提出的「序列級重要性采樣」很可能會成為未來后訓練強化學習的新標準。

      https://www.reddit.com/r/MachineLearning/comments/1mj3t3r/d_gspo_qwen3s_sequencelevel_rlhf_method_vs_grpo/

      https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek's_GRPO_is_Ill-Posed

      https://www.ft.com/content/ea803121-196f-4c61-ab70-93b38043836e?utm_source=chatgpt.com

      https://zhuanlan.zhihu.com/p/22845155602

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      大滿貫400勝第一人!德約橫掃晉級澳網16強,一戰(zhàn)創(chuàng)多項紀錄

      大滿貫400勝第一人!德約橫掃晉級澳網16強,一戰(zhàn)創(chuàng)多項紀錄

      全景體育V
      2026-01-24 19:01:36
      郭晶晶代言品牌被立案調查 跳水女皇退役15年年代言收入超5000萬

      郭晶晶代言品牌被立案調查 跳水女皇退役15年年代言收入超5000萬

      勁爆體壇
      2026-01-23 13:18:04
      奪冠!溫瑞博4-3戰(zhàn)勝弗朗西斯,關鍵球大心臟,王皓收獲一員大將

      奪冠!溫瑞博4-3戰(zhàn)勝弗朗西斯,關鍵球大心臟,王皓收獲一員大將

      騎馬寺的少年
      2026-01-24 21:51:22
      不到24小時,格蘭陵島被賣,特朗普來不及高興,就收到一個壞消息

      不到24小時,格蘭陵島被賣,特朗普來不及高興,就收到一個壞消息

      牛鍋巴小釩
      2026-01-25 03:12:10
      遠華集團老總賴昌星,在獄中對董文華的回憶,讓無數人咋舌

      遠華集團老總賴昌星,在獄中對董文華的回憶,讓無數人咋舌

      曉艾故事匯
      2025-01-09 22:01:49
      多省份公布去年結婚登記數據

      多省份公布去年結婚登記數據

      第一財經資訊
      2026-01-24 16:02:10
      光速翻臉?6萬噸菜籽油剛賣給中國,電車就遭針對,卡尼直搖頭

      光速翻臉?6萬噸菜籽油剛賣給中國,電車就遭針對,卡尼直搖頭

      娛樂八卦木木子
      2026-01-23 12:39:27
      官方:日本門將荒木琉偉獲得本屆U23亞洲杯最佳門將

      官方:日本門將荒木琉偉獲得本屆U23亞洲杯最佳門將

      懂球帝
      2026-01-25 01:41:11
      浙江省文化產業(yè)投資集團有限公司黨委副書記、董事、總經理蔣國興接受審查調查

      浙江省文化產業(yè)投資集團有限公司黨委副書記、董事、總經理蔣國興接受審查調查

      界面新聞
      2026-01-24 20:05:31
      南部戰(zhàn)區(qū)新聞發(fā)言人發(fā)表談話

      南部戰(zhàn)區(qū)新聞發(fā)言人發(fā)表談話

      界面新聞
      2026-01-20 22:21:05
      寧德時代官宣:鈉電池量產!成本比鋰電低10% 車價還要降?

      寧德時代官宣:鈉電池量產!成本比鋰電低10% 車價還要降?

      網上車市
      2026-01-22 23:32:10
      早安太空 · 網羅天下 | 解放軍報社論:堅決打贏軍隊反腐敗斗爭攻堅戰(zhàn)持久戰(zhàn)總體戰(zhàn)

      早安太空 · 網羅天下 | 解放軍報社論:堅決打贏軍隊反腐敗斗爭攻堅戰(zhàn)持久戰(zhàn)總體戰(zhàn)

      我們的太空
      2026-01-25 05:59:13
      發(fā)現馬上扔!一家四口吃了被放倒!醫(yī)生:煮熟也沒用

      發(fā)現馬上扔!一家四口吃了被放倒!醫(yī)生:煮熟也沒用

      路醫(yī)生健康科普
      2025-12-12 14:56:15
      面對上甘嶺遍地敵尸,為活命,8連4班提出大膽想法,最終全員生還

      面對上甘嶺遍地敵尸,為活命,8連4班提出大膽想法,最終全員生還

      興趣知識
      2026-01-24 14:50:07
      委內瑞拉民眾示威要求釋放馬杜羅

      委內瑞拉民眾示威要求釋放馬杜羅

      參考消息
      2026-01-24 11:54:04
      一天之內,重磅政策罕見三連發(fā)…

      一天之內,重磅政策罕見三連發(fā)…

      大碗樓市
      2026-01-24 08:04:07
      撈金失??!2個劣跡藝人下鄉(xiāng)商演被舉報,官媒發(fā)文,后路要斷了

      撈金失?。?個劣跡藝人下鄉(xiāng)商演被舉報,官媒發(fā)文,后路要斷了

      不寫散文詩
      2026-01-24 19:37:52
      92年,成都軍區(qū)司令員張?zhí)闳ケ本╅_會,卻被中央降職調去了南京

      92年,成都軍區(qū)司令員張?zhí)闳ケ本╅_會,卻被中央降職調去了南京

      禾所思
      2024-12-30 11:39:32
      我和老伴退休金1萬1,兒子要拿走我們的工資卡,我說:想都別想

      我和老伴退休金1萬1,兒子要拿走我們的工資卡,我說:想都別想

      荷蘭豆愛健康
      2026-01-24 10:23:15
      醫(yī)生直言:患糖尿病的人,天冷寧可出門散步,也不要去做這6件事

      醫(yī)生直言:患糖尿病的人,天冷寧可出門散步,也不要去做這6件事

      荊醫(yī)生科普
      2026-01-25 05:55:05
      2026-01-25 06:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12179文章數 142549關注度
      往期回顧 全部

      科技要聞

      黃仁勛現身上海菜市場

      頭條要聞

      張又俠、劉振立被查 解放軍報發(fā)布社論

      頭條要聞

      張又俠、劉振立被查 解放軍報發(fā)布社論

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現身馬年春晚

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態(tài)度原創(chuàng)

      教育
      手機
      家居
      公開課
      軍事航空

      教育要聞

      電氣工程選科別慌!物理化學是關鍵

      手機要聞

      追覓首款手機狂攬億元訂單:自研芯片+模塊化影像,硬剛華為小米

      家居要聞

      在家度假 160平南洋混搭宅

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄美烏首次三方會談在阿聯酋舉行

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日屄影视| 中文字幕日韩高清一区| 黑人av无码一区| 五月婷婷丁香色| 92久久精品一区二区| jjzz国产| 91丨九色丨人妻丨白浆| 一区二区三区av| 欧美激情成人网| 中文字幕日韩精品亚洲一区| 人人妻人人澡人人爽久久av| 国产av一区二区三区传媒| 日韩最新中文字幕| 精品国产污污免费网站| 九九视频在线观看| 黄色综合网| 曰韩无码二三区中文字幕| 中国毛片网| 熟女[21p]| 中文国产成人精品久久96| 日本三级欧美三级人妇视频黑白配| 浙江省| 丰满熟妇人妻av无码区| 国产精品久久久| 中文字幕精品无码一区二区| www熟女com| 欧洲高清无码| 最新中文字幕在线| 99精品中文| 国产xxx| 国产精品手机免费| 久久天天躁夜夜躁狠狠820175| 欧美牲交a欧美牲交| 国产怡春院无码一区二区| 亚洲 欧美 视频 手机在线 | 熟女亚洲精品| av天堂中文字幕| 亚洲男人皇宫| 天天做天天添无码区亚洲| 免费可以在线看a∨网站| 国产国拍精品av在线观看|