<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ACL 2026 | 中科大&上海AILab揭示強化學習后訓練的Scaling Law

      0
      分享至



      從 DeepSeek-R1 到 Kimi K2.5,強化學習(RL)后訓練已經成為提升大模型推理能力的核心手段。

      但一個關鍵問題始終懸而未決:RL 后訓練的 Scaling 行為到底遵循什么規律?能否像預訓練 Scaling Law 那樣,給定模型參數量、計算預算和數據量,就能定量預測 RL 后訓練所能達到的性能?又能否像預訓練 Scaling Law 那樣,為實踐者指明一條清晰的擴展路徑?

      來自中國科學技術大學和上海人工智能實驗室等機構的研究團隊給出了系統性的回答。團隊在 Qwen2.5 全系列密集模型(0.5B–72B)上開展了大規模 RL 訓練實證研究,并在 Llama 3 系列(1B–70B)上完成了跨架構驗證,首次全面刻畫了大模型強化學習后訓練在數學推理任務上的 Scaling 行為,提出了一套能夠預測模型學習效率與訓練軌跡的冪律公式。

      目前該工作已被 ACL 2026 主會議接收。



      • 論文地址:https://arxiv.org/abs/2509.25300
      • 代碼鏈接:https://github.com/tanzelin430/Mathematical-Reasoning-RL-Scaling-Law
      • 數據集:https://huggingface.co/datasets/Artemis0430/GURU-MATH-CL

      預訓練有 Scaling Law,RL 后訓練呢?

      Scaling Law 的故事并不陌生。OpenAI 早在 2020 年便揭示了預訓練階段的 Scaling 法則,證明模型性能隨參數量、數據量和計算量的增長呈現可預測的冪律關系,奠定了現代大模型「規模即力量」的范式基礎。

      然而,當訓練范式從預訓練 / 監督微調階段延伸到強化學習后訓練時,這套 Scaling 規律便難以直接套用。RL 的核心目標是通過策略優化來最大化獎勵,而非最小化 next-token prediction 的交叉熵損失,其訓練動態、數據利用方式和計算消耗模式都與預訓練有著本質區別。

      這意味著,要理解 RL 后訓練的 Scaling 行為,需要回到實驗中去,重新建立屬于 RL 自身的經驗規律。

      研究團隊選擇數學推理作為實驗平臺,原因在于數學任務具有天然的答案可驗證性,能夠為 RL 提供精確的獎勵信號,是當前 RL 后訓練最成熟的基準場景。在此基礎上,團隊圍繞計算受限、數據受限和數據重用三種典型場景展開了大規模受控實驗。

      實驗設計與評測框架

      為確保結論的魯棒性,研究團隊在實驗設計上做了充分的控制。

      模型方面,主實驗覆蓋了 Qwen2.5 全系列 Dense 模型(0.5B 至 72B),共享相同架構,確保模型規模是唯一變量。

      同時,為了保證 Scaling Law 的通用性,研究人員還在 Llama 3 系列(1B 至 70B)上進行了跨架構驗證。訓練統一采用 VeRL 分布式 RL 平臺和 GRPO 算法,每個配置重復 3 次,覆蓋 Base 和 Instruct 兩種模型變體,以保證統計可靠性。

      訓練數據來自 guru-RL-92k 數據集的數學子集(約 5.4 萬道題,由 OR1、DeepScaler、DAPO 三個數據集組成),按難度排序實現課程學習。

      評測方面,研究團隊定義測試損失 L = 1 - Pass@1 作為核心指標,以期與預訓練 Scaling Law 文獻中的 test loss 概念對齊。域內評測基于 500 道保持原始難度分布的數學題用于擬合 Scaling Law,跨領域評測則覆蓋數學、代碼、邏輯、科學等 8 個 benchmark 共約 3000 道題。

      基于這套實驗框架,研究團隊得到了三個關鍵發現。

      核心發現

      發現一:具有 RL 性能預測能力 Scaling Law

      研究的核心發現是一個簡潔而強大的 scaling 公式。模型的測試損失 L 與訓練資源 X(計算量 C 或數據量 D)之間存在對數線性關系:



      其中,k (N) 是模型在強化學習后訓練階段的學習效率,它隨模型參數量 N 單調遞增。

      實驗表明,該 Scaling 公式不僅能高精度擬合已有數據(R2 > 0.99),并且具備實際的預測能力,具體體現在兩個方面。

      • 跨模型外推(Inter-model Extrapolation):該 Scaling Law 支持利用小參數量模型的訓練數據來預測更大參數量模型的訓練軌跡。以本文為例,研究人員基于 0.5B 至 32B 模型的實驗數據擬合公式參數后,可直接預測 72B 模型的完整訓練曲線,且預測所得的學習效率等關鍵指標與 72B 模型的實際表現高度吻合。

      這意味著,研究人員只需通過小模型實驗,便能預判大模型的訓練走向,從而大幅降低試錯成本。



      圖 (1).Scaling Law 的擬合與跨模型外推能力

      • 訓練軌跡預測(Intra-model Prediction):該 Scaling Law 同樣支持對單一模型訓練過程的走勢預測。研究人員僅需使用訓練早期約 20%–30% 的數據點,便可準確外推出模型在完整數據集上的最終收斂性能。

      這意味著,無需等待訓練全程結束,研究人員便能大致預判模型的收斂走向,從而為訓練過程中的資源分配與早停決策提供直接的指導依據,有效降低不必要的算力消耗。





      圖 (2).Scaling Law 的擬合與模型內軌跡預測能力

      需要特別指出的是,這一公式在 Compute(C)和 Data(D)兩個維度上具有統一的函數形式,即無論以算力還是數據量作為自變量,性能的 scaling 行為都遵循相同的數學結構。這種理論一致性為公式的可靠性提供了額外支撐。

      發現二:學習效率的飽和趨勢

      為了更精確的研究 Scaling Law,研究團隊對強化學習效率 k (N) 也進行了大量實證分析。

      研究發現,更大的模型的確會學得更快。從 0.5B 到 72B,學習效率系數 k (N) 持續增長。但關鍵在于:這種增長并非線性的,而是逐漸趨于飽和。據此現象,研究團隊將強化學習的學習效率 k (N) 建模為







      圖 (3). 強化學習后訓練的學習效率隨模型參數量的變化趨勢

      這在實驗中表現為一個有趣的「性能交叉」現象,如圖 1.(a) 所示,在等量計算預算下,32B 模型在訓練初期的表現甚至優于 72B,因為更小的模型在相同計算量下能完成更多訓練步數。

      研究團隊認為該現象揭示了一個關鍵的隱性權衡,即在計算受限的場景下,盲目堆大模型未必是最優策略。在有限預算內,找到模型規模和訓練步數之間的平衡點,可能比簡單地選擇最大模型更為明智。這一發現為 RL 后訓練的資源分配提供了重要的定量依據。

      發現三:數據重用是有效策略

      在探究 Scaling Law 之外,團隊還對在 RL 中一個非常實際的問題進行了探究:反復使用同一批數據訓練效果如何?數據重用是否會對訓練軌跡和最終性能造成顯著影響?





      圖 (4). 數據重用對強化學習訓練軌跡的影響



      研究團隊證實,在高質量推理數據有限的場景下,適度的數據重用是一種低成本、高回報的訓練策略。無需費力搜集更多數據,反復利用現有的高質量數據即可獲得接近等價的訓練效果,且不會對訓練軌跡造成明顯的偏差。

      Scaling Law 的跨架構驗證

      以上發現均基于 Qwen2.5 系列。一個自然的問題是:這些 scaling 行為是特定架構的產物,還是 RL 后訓練的普遍規律?

      為此,研究團隊在Llama 3 模型族(Llama-3.2-1B/3B-Instruct、Llama-3.1-8B/70B-Instruct)上重復了完整實驗。

      結果表明,同一冪律公式在 Llama 上同樣成立,且擬合后與實際訓練數據點的 R2 > 0.99。盡管 Llama 在訓練后的絕對性能上低于 Qwen,但scaling 關系的函數形式完全一致,k (N) 的飽和趨勢也保持不變。



      圖 (5).Scaling Law 在 Llama 系列模型上的擬合效果

      這一跨架構驗證確認了研究團隊所揭示的 Scaling Law 刻畫的是 RL 后訓練優化過程本身的內在規律,而非特定模型架構的特性。無論底層架構如何,只要采用相同的 RL 后訓練范式,性能的 scaling 行為就遵循統一的數學描述。

      總結

      這項工作的核心貢獻在于,通過對 Qwen2.5 和 Llama 3 兩個模型家族上的所有參數量級模型進行實證分析,為 RL 后訓練建立了系統性的 scaling 理論框架,并給出了可預測強化學習訓練軌跡的數學公式(Scaling Law)。

      對于正在用 RL 提升大模型推理能力的研究者和工程師來說,這篇論文提供了一套可量化、可預測、可指導實踐的分析框架。而效率飽和這一發現,也在提醒我們:scale up 是有力的手段,但不是萬能的,理解 scaling 的邊界,才能更聰明地 scale。

      作者介紹

      本文由中國科學技術大學聯合上海人工智能實驗室、牛津大學等多家機構研究者合作完成。主要作者為上海人工智能實驗室聯培博士譚澤霖、牛津大學研究員耿鶴嘉等。其中論文第一作者譚澤霖是中科大與上海人工智能實驗室聯合培養博士生,其研究方向主要為智能體強化學習和機器學習系統。導師為白磊研究員,該篇文章由上海人工智能實驗室青年研究員張晨、牛津大學博后尹榛菲博士聯合執導。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      和王勵勤是黃金搭檔,如今定居上海是大學副院長,一家三口很幸福

      和王勵勤是黃金搭檔,如今定居上海是大學副院長,一家三口很幸福

      林子說事
      2026-04-27 18:28:33
      后悔來不及了!美商務部長:中方已改主意,美方想賣也賣不掉

      后悔來不及了!美商務部長:中方已改主意,美方想賣也賣不掉

      夢想的現實
      2026-04-26 04:44:31
      有關特朗普遇襲,特朗普夫人和高市早苗誰反應迅速?

      有關特朗普遇襲,特朗普夫人和高市早苗誰反應迅速?

      新民周刊
      2026-04-27 11:05:55
      為啥現在小偷越來越少?根本不是良心發現,而是偷東西早就劃不來

      為啥現在小偷越來越少?根本不是良心發現,而是偷東西早就劃不來

      芳姐侃社會
      2026-04-27 23:08:12
      廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

      廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

      今日搞笑分享
      2026-04-06 17:55:16
      賺翻!曼聯隱形王牌身價暴漲,全面碾壓皇馬巨星,紅魔撿到寶了

      賺翻!曼聯隱形王牌身價暴漲,全面碾壓皇馬巨星,紅魔撿到寶了

      瀾歸序
      2026-04-27 05:33:48
      中國人死亡19萬,比美軍多5倍,好意思說勝利嗎?金將軍這樣回答

      中國人死亡19萬,比美軍多5倍,好意思說勝利嗎?金將軍這樣回答

      健身狂人
      2026-03-11 09:58:37
      夫妻在樓道養雞雙雙重癥肺炎住進ICU:感染了“鸚鵡熱”

      夫妻在樓道養雞雙雙重癥肺炎住進ICU:感染了“鸚鵡熱”

      大象新聞
      2026-04-26 15:38:02
      十四屆全國人大常委會第二十二次會議在京舉行

      十四屆全國人大常委會第二十二次會議在京舉行

      澎湃新聞
      2026-04-27 22:23:02
      五一前暴雨升級,13省市大到暴雨3省大暴雨,五一5天全都是雨!

      五一前暴雨升級,13省市大到暴雨3省大暴雨,五一5天全都是雨!

      風云圈天氣
      2026-04-27 23:55:38
      多名院士調查發現:吃一口放久發酵的腐乳,或等于進一次毒?真假

      多名院士調查發現:吃一口放久發酵的腐乳,或等于進一次毒?真假

      健康科普365
      2026-04-27 16:15:12
      代縣推土埋人后續:火到央媒,任某平多重身份曝光,村民病情加重

      代縣推土埋人后續:火到央媒,任某平多重身份曝光,村民病情加重

      社會日日鮮
      2026-04-27 12:40:06
      家長注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢還坑娃

      家長注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢還坑娃

      番外行
      2026-03-27 10:27:39
      東體:莫雷諾能參加慈善賽是辦到簽證,瓜林和阿爾貝茨未成行

      東體:莫雷諾能參加慈善賽是辦到簽證,瓜林和阿爾貝茨未成行

      懂球帝
      2026-04-27 12:06:25
      為什么山姆越來越多,麥德龍卻快倒光了?網友:降本增效的問題

      為什么山姆越來越多,麥德龍卻快倒光了?網友:降本增效的問題

      另子維愛讀史
      2026-04-13 13:14:30
      人窮能卑微到什么地步?網友說:一個男人兩千塊買了我三個晚上!

      人窮能卑微到什么地步?網友說:一個男人兩千塊買了我三個晚上!

      黯泉
      2026-04-14 12:13:04
      法系韓系高調回歸,北京車展迎來反轉

      法系韓系高調回歸,北京車展迎來反轉

      國際金融報
      2026-04-27 22:03:25
      中國強烈反對歐盟制裁,要求移除被列入俄制裁名單企業

      中國強烈反對歐盟制裁,要求移除被列入俄制裁名單企業

      桂系007
      2026-04-26 23:47:03
      斯諾克球星不滿取消沙特大師賽,中國公開賽獎金未能頂替第四滿貫

      斯諾克球星不滿取消沙特大師賽,中國公開賽獎金未能頂替第四滿貫

      楊華評論
      2026-04-27 02:16:38
      阿里巴巴:擬議分拆獲香港聯交所批準

      阿里巴巴:擬議分拆獲香港聯交所批準

      界面新聞
      2026-04-27 20:05:44
      2026-04-28 00:52:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12874文章數 142638關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4上線三天,第一批實測出來了

      頭條要聞

      坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

      頭條要聞

      坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

      體育要聞

      人類馬拉松"破二"新紀元,一場跑鞋軍備競賽

      娛樂要聞

      黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

      財經要聞

      Meta 140億收購Manus遭中國發改委否決

      汽車要聞

      不那么小眾也可以 smart的路會越走越寬

      態度原創

      藝術
      時尚
      游戲
      本地
      手機

      藝術要聞

      他的油畫筆觸粗獷又細膩,透著一種不可言說的美!

      絲巾的10種系法,愛美的女人必看

      LPL又一超級強隊誕生!S賽冠軍復出豪取六連勝,小局12-0一場不敗

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      手機要聞

      輕薄本迎來驍龍時刻!華碩推出三款萬元AI PC,太精準了

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美精品一产区二产区| 国内a∨免费播放| 宜宾县| 人妻精品无码| 国色天香中文字幕在线视频| 亚洲熟妇中文字幕五十中出 | 欧美黑人粗暴多交高潮水最多| 你懂的国产在线| 99国产成人综合久久精品| 2020国产成人精品视频| 亚洲国产精品久久久久秋霞小说| 亚洲人成色77777| 簧片无码| 国产精品va在线观看无码| 国产熟女一区二区三区五月婷 | 亚洲av午夜福利精品一区二区| 日韩在线视频网| 色成年激情久久综合国产| 国产性色的免费视频网站| 2021国产精品一卡2卡三卡4卡| 青草伊人网| 18成人片黄网站www| 国产高清A片| 亚洲国产成人精品无色码| 女人被做到高潮视频| 香蕉久久国产精品免| 日韩丨亚洲丨制服|痴汉| 尚义县| 国产免费踩踏调教视频| 日本一级在线播| 巨大黑人极品videos精品| 好吊视频在线一区二区三区| 利川市| 亚洲精品喷潮一区二区三区| 亚洲无码2025| 亚洲综合久久久| 中文字字幕在线中文乱码| 亚洲第一香蕉视频| 国产精品久久久久影院色| 人妻少妇久久久久久97人妻| 日韩欧美视频一区二区三区|