![]()
機器之心報道
機器之心編輯部
近期,強化學習(RL)技術在提升語言模型的推理能力方面取得了顯著成效。
然而,后訓練究竟是真正擴展了模型的推理能力,還是僅僅挖掘了預訓練中已有的潛力?目前尚不明確。
一個核心挑戰在于現代訓練流程缺乏可控性:大規模預訓練語料庫不夠透明,中期訓練往往缺乏充分研究,且 RL 目標函數與未知的先驗知識之間存在復雜的交互作用。
為了回答這個問題,來自卡耐基梅隆大學(CMU)的研究者通過構建基于 GSM-Infinite 的可控合成數據框架,在完全解耦的環境下,定量分析了預訓練、Mid-training(中期訓練/CPT)和 RL 三者對模型推理泛化能力的因果影響。旨在剝離并獨立分析預訓練、中期訓練以及基于 RL 的后訓練各自的因果貢獻。
![]()
https://x.com/xiangyue96/status/1998488030836044112
研究者從兩個維度對模型進行評估:針對更復雜組合的外推泛化能力,以及跨越不同表層語境的情境泛化能力。利用該框架,研究者調和了關于 RL 有效性的不同觀點。
研究表明:
- 僅當預訓練留有足夠提升空間,且 RL 數據針對模型的能力邊界(即那些雖具難度但尚未超出模型能力范圍的任務)時,RL 才能帶來真正的能力增益(pass@128)。
- 情境泛化需要極少但充分的預訓練接觸,在此之后 RL 便能實現可靠的遷移。
- 在固定計算量下,相比于僅使用 RL,中期訓練能顯著提升性能,證明了其在訓練流程中處于核心地位卻未被充分探索。
- 過程級獎勵能減少獎勵破解(Reward Hacking)現象并提高推理的忠實度。
![]()
- 論文標題:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
- 論文地址:https://arxiv.org/abs/2512.07783
- Github:https://github.com/Interplay-LM-Reasoning/Interplay-LM-Reasoning
- HuggingFace:https://huggingface.co/Interplay-LM-Reasoning
綜上所述,這些結果闡明了預訓練、中期訓練和 RL 之間的相互作用,為理解和改進推理語言模型的訓練策略奠定了基礎。
該工作登上了 Alphaxiv 榜一。
![]()
同時該工作在 AI 社區收獲了一大波好評,ViT 作者之一 Lucas Beyer 也現身評論區。
![]()
核心方法:
完全可控的實驗沙盒
為了從因果層面解構大模型的推理能力來源,研究團隊并未直接使用現有的黑盒大模型或不可知的互聯網語料,而是設計了一套嚴密的可控合成數據框架。該框架基于 GSM-Infinite 生成技術,旨在從源頭控制數據分布、推理深度與語境廣度。
![]()
數據生成框架與任務設置概覽
基于依賴圖(DAG)的數據生成
該框架的核心理念是將「推理結構」與「表面語境」完全解耦。
![]()
語境渲染:在確定了推理骨架后,系統通過應用不同的「語境模板」(如動物園、學校等場景),將抽象的數學圖渲染為自然語言問題。這種分離使得研究者能夠考察模型是真正學會了推理邏輯,還是僅僅記住了特定的文本模式。
三階段訓練流程的嚴格隔離
為了避免數據污染導致的評估偏差,研究者定義了三個互不重疊的訓練階段,并在各階段精確調配數據分布:
- 預訓練:使用 10B token 的數據,主要包含基礎的推理原語(Primitives)和規則。重點在于讓模型掌握基礎能力(op=2-10),同時保留更深層任務作為未見過的測試集。
- 中期訓練:這是一個連接預訓練與 RL 的「橋梁」階段。它使用與 RL 階段相似的數據分布(即模型能力邊緣的數據),旨在對齊模型的內部表征,使其做好「RL 就緒(RL-ready)」的準備。
- 后訓練(Post-training / RL):采用 GRPO 算法,針對特定的任務難度和語境進行強化學習,以探索模型在特定獎勵信號下的能力邊界。
過程級驗證評估
為了防止模型「猜對答案」或通過錯誤的推理路徑得出正確結果(即 Reward Hacking),該研究引入了過程級驗證。系統不僅檢查最終答案,還會解析模型生成的思維鏈,將其還原為依賴圖,并與真實的一步步推理過程(Ground Truth DAG)進行比對。只有當推理步驟和最終答案全對時,才被判定為通過。
解構能力涌現的四個關鍵發現
基于上述框架,研究者進行了一系列控制變量實驗,得出了關于 RL、預訓練和中期訓練相互作用的四個關鍵結論,有力地調和了學術界關于「RL 是否能創造新能力」的爭議。
RL 的效用取決于「能力邊緣」
RL 并非在任何情況下都能提升推理能力。
對于預訓練中已充分掌握的簡單任務,RL 只能提升 pass@1(即減少失誤),無法提升模型的上限(pass@128)。
真正的能力躍遷發生在模型「能力邊緣」的任務上(例如預訓練覆蓋了 op=2-10,RL 針對 op=11-14)。在這一區間,RL 能夠通過探索帶來顯著的外推性泛化增益。如果任務難度過大(op=15-20),超出了模型的探索范圍,RL 的收益也會消失。
因此,RL 的訓練數據必須經過精心校準,瞄準模型的「能力邊緣」,既不能太簡單也不能太難。
![]()
不同難度任務下的 RL 表現
泛化的種子:1% 的預訓練暴露至關重要
在考察模型能否將推理能力遷移到全新語境時,研究發現,如果預訓練中完全沒有接觸過某種長尾語境(0%),即便 RL 階段大量訓練,模型也無法實現有效遷移。
![]()
因此,RL 無法無中生有,它需要預訓練提供最基礎的「原語」作為抓手。
![]()
預訓練數據混合比例對情境泛化的影響
中期訓練是計算效率的關鍵杠桿
在固定的計算預算(Compute Budget)下,如何分配中期訓練和 RL 的比例?
Mid-Training + RL > Pure RL:引入中期訓練階段比單純增加 RL 步數效果更好。
分配策略:實驗表明,對于極難任務(OOD-Hard),「少量中期訓練(建立先驗)+ 大量 RL(深度探索)」的組合是最佳策略;而對于中等難度任務,增加中期訓練的比重能帶來更穩定的 pass@1 表現。
中期訓練起到了「分布橋梁」的作用,極大地提升了 RL 的樣本效率和最終性能上限。
![]()
不同算力分配策略下的性能對比
過程獎勵抑制投機取巧
針對 RL 常見的獎勵破解問題——即模型利用捷徑獲取高分但推理邏輯錯誤,研究引入了過程監督。
實驗數據表明,將稀疏的結果獎勵與密集的過程獎勵相結合,能顯著減少結構性錯誤(如遺漏步驟或依賴關系錯誤)。這種混合獎勵機制在長鏈條推理任務($op=15\text{-}20$)中帶來了穩定的 pass@1 提升。
過程級信號能夠規范 RL 的搜索方向,確保能力的提升是建立在忠實推理基礎之上的。
![]()
不同獎勵機制的效果對比
結語
這項工作通過解構訓練流程,給出了明確的實踐指導:
RL 數據設計:應針對模型的「能力邊緣」構建數據集,不要浪費算力在過易或過難的任務上。
預訓練策略:必須確保長尾領域的原子能力(Primitives)有至少 1% 的覆蓋率,為 RL 留出接口。
算力分配:根據目標任務的難度,動態調整中期訓練與 RL 的比例。攻克難題需要更多 RL,提升穩定性需要更多中期訓練。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.