<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      RL是「點金石」還是「挖掘機」?CMU 用可控實驗給出答案

      0
      分享至




      機器之心報道

      機器之心編輯部

      近期,強化學習(RL)技術在提升語言模型的推理能力方面取得了顯著成效。

      然而,后訓練究竟是真正擴展了模型的推理能力,還是僅僅挖掘了預訓練中已有的潛力?目前尚不明確。

      一個核心挑戰在于現代訓練流程缺乏可控性:大規模預訓練語料庫不夠透明,中期訓練往往缺乏充分研究,且 RL 目標函數與未知的先驗知識之間存在復雜的交互作用。

      為了回答這個問題,來自卡耐基梅隆大學(CMU)的研究者通過構建基于 GSM-Infinite 的可控合成數據框架,在完全解耦的環境下,定量分析了預訓練、Mid-training(中期訓練/CPT)和 RL 三者對模型推理泛化能力的因果影響。旨在剝離并獨立分析預訓練、中期訓練以及基于 RL 的后訓練各自的因果貢獻。



      https://x.com/xiangyue96/status/1998488030836044112

      研究者從兩個維度對模型進行評估:針對更復雜組合的外推泛化能力,以及跨越不同表層語境的情境泛化能力。利用該框架,研究者調和了關于 RL 有效性的不同觀點。

      研究表明:

      • 僅當預訓練留有足夠提升空間,且 RL 數據針對模型的能力邊界(即那些雖具難度但尚未超出模型能力范圍的任務)時,RL 才能帶來真正的能力增益(pass@128)。
      • 情境泛化需要極少但充分的預訓練接觸,在此之后 RL 便能實現可靠的遷移。
      • 在固定計算量下,相比于僅使用 RL,中期訓練能顯著提升性能,證明了其在訓練流程中處于核心地位卻未被充分探索。
      • 過程級獎勵能減少獎勵破解(Reward Hacking)現象并提高推理的忠實度。



      • 論文標題:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
      • 論文地址:https://arxiv.org/abs/2512.07783
      • Github:https://github.com/Interplay-LM-Reasoning/Interplay-LM-Reasoning
      • HuggingFace:https://huggingface.co/Interplay-LM-Reasoning

      綜上所述,這些結果闡明了預訓練、中期訓練和 RL 之間的相互作用,為理解和改進推理語言模型的訓練策略奠定了基礎。

      該工作登上了 Alphaxiv 榜一。



      同時該工作在 AI 社區收獲了一大波好評,ViT 作者之一 Lucas Beyer 也現身評論區。



      核心方法:

      完全可控的實驗沙盒

      為了從因果層面解構大模型的推理能力來源,研究團隊并未直接使用現有的黑盒大模型或不可知的互聯網語料,而是設計了一套嚴密的可控合成數據框架。該框架基于 GSM-Infinite 生成技術,旨在從源頭控制數據分布、推理深度與語境廣度。



      數據生成框架與任務設置概覽

      基于依賴圖(DAG)的數據生成

      該框架的核心理念是將「推理結構」與「表面語境」完全解耦。



      語境渲染:在確定了推理骨架后,系統通過應用不同的「語境模板」(如動物園、學校等場景),將抽象的數學圖渲染為自然語言問題。這種分離使得研究者能夠考察模型是真正學會了推理邏輯,還是僅僅記住了特定的文本模式。

      三階段訓練流程的嚴格隔離

      為了避免數據污染導致的評估偏差,研究者定義了三個互不重疊的訓練階段,并在各階段精確調配數據分布:

      • 預訓練:使用 10B token 的數據,主要包含基礎的推理原語(Primitives)和規則。重點在于讓模型掌握基礎能力(op=2-10),同時保留更深層任務作為未見過的測試集。
      • 中期訓練:這是一個連接預訓練與 RL 的「橋梁」階段。它使用與 RL 階段相似的數據分布(即模型能力邊緣的數據),旨在對齊模型的內部表征,使其做好「RL 就緒(RL-ready)」的準備。
      • 后訓練(Post-training / RL):采用 GRPO 算法,針對特定的任務難度和語境進行強化學習,以探索模型在特定獎勵信號下的能力邊界。

      過程級驗證評估

      為了防止模型「猜對答案」或通過錯誤的推理路徑得出正確結果(即 Reward Hacking),該研究引入了過程級驗證。系統不僅檢查最終答案,還會解析模型生成的思維鏈,將其還原為依賴圖,并與真實的一步步推理過程(Ground Truth DAG)進行比對。只有當推理步驟和最終答案全對時,才被判定為通過。

      解構能力涌現的四個關鍵發現

      基于上述框架,研究者進行了一系列控制變量實驗,得出了關于 RL、預訓練和中期訓練相互作用的四個關鍵結論,有力地調和了學術界關于「RL 是否能創造新能力」的爭議。

      RL 的效用取決于「能力邊緣」

      RL 并非在任何情況下都能提升推理能力。

      對于預訓練中已充分掌握的簡單任務,RL 只能提升 pass@1(即減少失誤),無法提升模型的上限(pass@128)。

      真正的能力躍遷發生在模型「能力邊緣」的任務上(例如預訓練覆蓋了 op=2-10,RL 針對 op=11-14)。在這一區間,RL 能夠通過探索帶來顯著的外推性泛化增益。如果任務難度過大(op=15-20),超出了模型的探索范圍,RL 的收益也會消失。

      因此,RL 的訓練數據必須經過精心校準,瞄準模型的「能力邊緣」,既不能太簡單也不能太難。



      不同難度任務下的 RL 表現

      泛化的種子:1% 的預訓練暴露至關重要

      在考察模型能否將推理能力遷移到全新語境時,研究發現,如果預訓練中完全沒有接觸過某種長尾語境(0%),即便 RL 階段大量訓練,模型也無法實現有效遷移。



      因此,RL 無法無中生有,它需要預訓練提供最基礎的「原語」作為抓手。



      預訓練數據混合比例對情境泛化的影響

      中期訓練是計算效率的關鍵杠桿

      在固定的計算預算(Compute Budget)下,如何分配中期訓練和 RL 的比例?

      Mid-Training + RL > Pure RL:引入中期訓練階段比單純增加 RL 步數效果更好。

      分配策略:實驗表明,對于極難任務(OOD-Hard),「少量中期訓練(建立先驗)+ 大量 RL(深度探索)」的組合是最佳策略;而對于中等難度任務,增加中期訓練的比重能帶來更穩定的 pass@1 表現。

      中期訓練起到了「分布橋梁」的作用,極大地提升了 RL 的樣本效率和最終性能上限。



      不同算力分配策略下的性能對比

      過程獎勵抑制投機取巧

      針對 RL 常見的獎勵破解問題——即模型利用捷徑獲取高分但推理邏輯錯誤,研究引入了過程監督。

      實驗數據表明,將稀疏的結果獎勵與密集的過程獎勵相結合,能顯著減少結構性錯誤(如遺漏步驟或依賴關系錯誤)。這種混合獎勵機制在長鏈條推理任務($op=15\text{-}20$)中帶來了穩定的 pass@1 提升。

      過程級信號能夠規范 RL 的搜索方向,確保能力的提升是建立在忠實推理基礎之上的。



      不同獎勵機制的效果對比

      結語

      這項工作通過解構訓練流程,給出了明確的實踐指導:

      RL 數據設計:應針對模型的「能力邊緣」構建數據集,不要浪費算力在過易或過難的任務上。

      預訓練策略:必須確保長尾領域的原子能力(Primitives)有至少 1% 的覆蓋率,為 RL 留出接口。

      算力分配:根據目標任務的難度,動態調整中期訓練與 RL 的比例。攻克難題需要更多 RL,提升穩定性需要更多中期訓練。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張本智和“窘態百出”上熱搜 媒體人集體不滿:別輸不起 尊重冠軍

      張本智和“窘態百出”上熱搜 媒體人集體不滿:別輸不起 尊重冠軍

      風過鄉
      2025-12-15 07:19:13
      阿薩德私密視頻傳出,躲在莫斯科高檔公寓,還嘲笑敘利亞民眾

      阿薩德私密視頻傳出,躲在莫斯科高檔公寓,還嘲笑敘利亞民眾

      知兵
      2025-12-10 22:33:33
      平價數碼產品,要和我們說再見了?

      平價數碼產品,要和我們說再見了?

      虎嗅APP
      2025-12-15 06:52:08
      1962年毛澤東請溥儀吃飯,一個問題問得他滿頭汗:你當皇帝時,咋整你手下那幫大臣?

      1962年毛澤東請溥儀吃飯,一個問題問得他滿頭汗:你當皇帝時,咋整你手下那幫大臣?

      歷史回憶室
      2025-12-14 16:26:20
      發生什么了?森林狼官方:戈貝爾提前退出對國王的比賽且不會回歸

      發生什么了?森林狼官方:戈貝爾提前退出對國王的比賽且不會回歸

      懂球帝
      2025-12-15 10:25:40
      別再誤解副高五級!教師退休金9千和1萬8的差距,原來差在這4點

      別再誤解副高五級!教師退休金9千和1萬8的差距,原來差在這4點

      前沿天地
      2025-12-15 09:04:07
      威海一中學4單科狀元“王總”橫空出世!網友:等到找工作就難了

      威海一中學4單科狀元“王總”橫空出世!網友:等到找工作就難了

      火山詩話
      2025-12-13 10:48:27
      西部排名又變了:馬刺創NBA奇跡,湖人掉到第五,2隊排名互換

      西部排名又變了:馬刺創NBA奇跡,湖人掉到第五,2隊排名互換

      籃球大視野
      2025-12-14 17:32:38
      父母回應向佐痛哭,向太稱他是哭自己太笨,向華強:40歲還年輕

      父母回應向佐痛哭,向太稱他是哭自己太笨,向華強:40歲還年輕

      小海娛計
      2025-12-13 17:43:12
      警惕!小心這些藥正在“溶解”你的肌肉

      警惕!小心這些藥正在“溶解”你的肌肉

      PSM藥盾公益
      2025-11-21 16:59:45
      為什么反感滿清的情緒,會在今天突然集中爆發?

      為什么反感滿清的情緒,會在今天突然集中爆發?

      西域都護
      2025-12-13 23:55:19
      孫穎莎王楚欽剛退賽,壞消息又來了

      孫穎莎王楚欽剛退賽,壞消息又來了

      最愛乒乓球
      2025-12-15 08:36:58
      哈工大發現:能抗擊慢性炎癥的行為,不是運動而是這8個生活方式

      哈工大發現:能抗擊慢性炎癥的行為,不是運動而是這8個生活方式

      橘子約定
      2025-11-21 09:42:00
      43歲澳洲老板勇奪歹徒武器,被譽英雄,以總理證實“他是穆斯林”

      43歲澳洲老板勇奪歹徒武器,被譽英雄,以總理證實“他是穆斯林”

      譯言
      2025-12-15 09:38:38
      突然“崩了”,20cm跌停!網友:離譜......

      突然“崩了”,20cm跌停!網友:離譜......

      中國基金報
      2025-12-15 10:44:24
      何晴遺體告別儀式:許亞軍疑攜妻子現身幫忙,24歲何許一臉悲痛!

      何晴遺體告別儀式:許亞軍疑攜妻子現身幫忙,24歲何許一臉悲痛!

      古希臘掌管月桂的神
      2025-12-15 11:28:39
      我國新型高空高速長航時無人機彩虹-7成功首飛

      我國新型高空高速長航時無人機彩虹-7成功首飛

      上觀新聞
      2025-12-15 08:21:04
      澳門賭場最近發生了讓人頭皮發麻的事

      澳門賭場最近發生了讓人頭皮發麻的事

      忠于法紀
      2025-12-15 09:03:50
      入殮師曝何晴告別儀式已經結束,門口圍滿媒體拍攝惹家屬厭煩

      入殮師曝何晴告別儀式已經結束,門口圍滿媒體拍攝惹家屬厭煩

      好賢觀史記
      2025-12-15 10:38:19
      斯大林死前已準備動手:調集大量囚車,兩大目的一個比一個殘忍

      斯大林死前已準備動手:調集大量囚車,兩大目的一個比一個殘忍

      審度
      2025-12-14 20:47:08
      2025-12-15 12:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11911文章數 142509關注度
      往期回顧 全部

      科技要聞

      平價數碼產品,要和我們說再見了?

      頭條要聞

      媒體:賴清德將砍出第三板斧 對臺灣的影響是致命的

      頭條要聞

      媒體:賴清德將砍出第三板斧 對臺灣的影響是致命的

      體育要聞

      戰勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      黃綺珊在何晴去世首發,10年悄悄祈福

      財經要聞

      新會陳皮亂象曝光:產地造假、年份速成

      汽車要聞

      奔馳小G諜照,或搭混動或燃油動力

      態度原創

      家居
      房產
      藝術
      健康
      軍事航空

      家居要聞

      溫暖色調 大空間不冷清

      房產要聞

      6.66億摘地,海南封關大動作,千畝海澄新城震撼登場

      藝術要聞

      砸50億!369米!洛陽第一高樓“龍塔”,為何爛尾成公園?

      甲狀腺結節到這個程度,該穿刺了!

      軍事要聞

      澤連斯基稱烏方已妥協不加入北約 俄方發聲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 屏边| 日韩伦人妻无码| 国产免费无遮挡吸奶头视频 | 不卡国产一区二区三区| 亚洲成人综合网站| 金山区| 乱女伦露脸对白在线播放| 亚洲日韩AV在线| 影音先锋成人| 亚洲人无码一区| www成人国产高清内射| 亚洲色无码国产精品网站可下载 | 毛片无遮挡高清免费| 亚洲丝袜精品在线视频| 四虎Av| 偷看少妇自慰xxxx| 中文字幕日韩精品人妻| 色人妻中文字幕| 夜夜躁狠狠躁日日躁av| av鲁丝一区鲁丝二区鲁丝三区| 久久精品人人做人人爽97| 日日操影院| 狠狠?亚洲?一区| 性人久久久久| 国产乱码精品一区二三区| 91色在线观看| 日产国产精品亚洲系列| 久久久精品人妻一区二区三区四| 色欲狠狠躁天天躁无码中文字幕 | 无码福利一区二区三区| 欧美精品黑人粗大| 国产中文99视频在线观看| 伊人啪啪| 午夜精品久久久久久99热| 2018国产精华国产精品| 韩国无码一区二区三区精品| 赞皇县| 国产一区二区三区乱码| 久久精品夜夜夜夜夜久久| 精品人妻伦九区久久AAA片| 亚洲色?中文字幕|