網易首頁 > 網易號 > 正文申請入駐

RL是「點金石」還是「挖掘機」？CMU 用可控實驗給出答案

2025-12-15 10:14:24　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

近期，強化學習（RL）技術在提升語言模型的推理能力方面取得了顯著成效。

然而，后訓練究竟是真正擴展了模型的推理能力，還是僅僅挖掘了預訓練中已有的潛力？目前尚不明確。

一個核心挑戰在于現代訓練流程缺乏可控性：大規模預訓練語料庫不夠透明，中期訓練往往缺乏充分研究，且 RL 目標函數與未知的先驗知識之間存在復雜的交互作用。

為了回答這個問題，來自卡耐基梅隆大學（CMU）的研究者通過構建基于 GSM-Infinite 的可控合成數據框架，在完全解耦的環境下，定量分析了預訓練、Mid-training（中期訓練/CPT）和 RL 三者對模型推理泛化能力的因果影響。旨在剝離并獨立分析預訓練、中期訓練以及基于 RL 的后訓練各自的因果貢獻。

https://x.com/xiangyue96/status/1998488030836044112

研究者從兩個維度對模型進行評估：針對更復雜組合的外推泛化能力，以及跨越不同表層語境的情境泛化能力。利用該框架，研究者調和了關于 RL 有效性的不同觀點。

研究表明：

僅當預訓練留有足夠提升空間，且 RL 數據針對模型的能力邊界（即那些雖具難度但尚未超出模型能力范圍的任務）時，RL 才能帶來真正的能力增益（pass@128）。
情境泛化需要極少但充分的預訓練接觸，在此之后 RL 便能實現可靠的遷移。
在固定計算量下，相比于僅使用 RL，中期訓練能顯著提升性能，證明了其在訓練流程中處于核心地位卻未被充分探索。
過程級獎勵能減少獎勵破解（Reward Hacking）現象并提高推理的忠實度。

論文標題：On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
論文地址：https://arxiv.org/abs/2512.07783
Github：https://github.com/Interplay-LM-Reasoning/Interplay-LM-Reasoning
HuggingFace：https://huggingface.co/Interplay-LM-Reasoning

綜上所述，這些結果闡明了預訓練、中期訓練和 RL 之間的相互作用，為理解和改進推理語言模型的訓練策略奠定了基礎。

該工作登上了 Alphaxiv 榜一。

同時該工作在 AI 社區收獲了一大波好評，ViT 作者之一 Lucas Beyer 也現身評論區。

核心方法：

完全可控的實驗沙盒

為了從因果層面解構大模型的推理能力來源，研究團隊并未直接使用現有的黑盒大模型或不可知的互聯網語料，而是設計了一套嚴密的可控合成數據框架。該框架基于 GSM-Infinite 生成技術，旨在從源頭控制數據分布、推理深度與語境廣度。

數據生成框架與任務設置概覽

基于依賴圖（DAG）的數據生成

該框架的核心理念是將「推理結構」與「表面語境」完全解耦。

語境渲染：在確定了推理骨架后，系統通過應用不同的「語境模板」（如動物園、學校等場景），將抽象的數學圖渲染為自然語言問題。這種分離使得研究者能夠考察模型是真正學會了推理邏輯，還是僅僅記住了特定的文本模式。

三階段訓練流程的嚴格隔離

為了避免數據污染導致的評估偏差，研究者定義了三個互不重疊的訓練階段，并在各階段精確調配數據分布：

預訓練：使用 10B token 的數據，主要包含基礎的推理原語（Primitives）和規則。重點在于讓模型掌握基礎能力（op=2-10），同時保留更深層任務作為未見過的測試集。
中期訓練：這是一個連接預訓練與 RL 的「橋梁」階段。它使用與 RL 階段相似的數據分布（即模型能力邊緣的數據），旨在對齊模型的內部表征，使其做好「RL 就緒（RL-ready）」的準備。
后訓練（Post-training / RL）：采用 GRPO 算法，針對特定的任務難度和語境進行強化學習，以探索模型在特定獎勵信號下的能力邊界。

過程級驗證評估

為了防止模型「猜對答案」或通過錯誤的推理路徑得出正確結果（即 Reward Hacking），該研究引入了過程級驗證。系統不僅檢查最終答案，還會解析模型生成的思維鏈，將其還原為依賴圖，并與真實的一步步推理過程（Ground Truth DAG）進行比對。只有當推理步驟和最終答案全對時，才被判定為通過。

解構能力涌現的四個關鍵發現

基于上述框架，研究者進行了一系列控制變量實驗，得出了關于 RL、預訓練和中期訓練相互作用的四個關鍵結論，有力地調和了學術界關于「RL 是否能創造新能力」的爭議。

RL 的效用取決于「能力邊緣」

RL 并非在任何情況下都能提升推理能力。

對于預訓練中已充分掌握的簡單任務，RL 只能提升 pass@1（即減少失誤），無法提升模型的上限（pass@128）。

真正的能力躍遷發生在模型「能力邊緣」的任務上（例如預訓練覆蓋了 op=2-10，RL 針對 op=11-14）。在這一區間，RL 能夠通過探索帶來顯著的外推性泛化增益。如果任務難度過大（op=15-20），超出了模型的探索范圍，RL 的收益也會消失。

因此，RL 的訓練數據必須經過精心校準，瞄準模型的「能力邊緣」，既不能太簡單也不能太難。

不同難度任務下的 RL 表現

泛化的種子：1% 的預訓練暴露至關重要

在考察模型能否將推理能力遷移到全新語境時，研究發現，如果預訓練中完全沒有接觸過某種長尾語境（0%），即便 RL 階段大量訓練，模型也無法實現有效遷移。

因此，RL 無法無中生有，它需要預訓練提供最基礎的「原語」作為抓手。

預訓練數據混合比例對情境泛化的影響

中期訓練是計算效率的關鍵杠桿

在固定的計算預算（Compute Budget）下，如何分配中期訓練和 RL 的比例？

Mid-Training + RL > Pure RL：引入中期訓練階段比單純增加 RL 步數效果更好。

分配策略：實驗表明，對于極難任務（OOD-Hard），「少量中期訓練（建立先驗）+ 大量 RL（深度探索）」的組合是最佳策略；而對于中等難度任務，增加中期訓練的比重能帶來更穩定的 pass@1 表現。

中期訓練起到了「分布橋梁」的作用，極大地提升了 RL 的樣本效率和最終性能上限。

不同算力分配策略下的性能對比

過程獎勵抑制投機取巧

針對 RL 常見的獎勵破解問題——即模型利用捷徑獲取高分但推理邏輯錯誤，研究引入了過程監督。

實驗數據表明，將稀疏的結果獎勵與密集的過程獎勵相結合，能顯著減少結構性錯誤（如遺漏步驟或依賴關系錯誤）。這種混合獎勵機制在長鏈條推理任務（$op=15\text{-}20$）中帶來了穩定的 pass@1 提升。

過程級信號能夠規范 RL 的搜索方向，確保能力的提升是建立在忠實推理基礎之上的。

不同獎勵機制的效果對比

結語

這項工作通過解構訓練流程，給出了明確的實踐指導：

RL 數據設計：應針對模型的「能力邊緣」構建數據集，不要浪費算力在過易或過難的任務上。

預訓練策略：必須確保長尾領域的原子能力（Primitives）有至少 1% 的覆蓋率，為 RL 留出接口。

算力分配：根據目標任務的難度，動態調整中期訓練與 RL 的比例。攻克難題需要更多 RL，提升穩定性需要更多中期訓練。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.