網易首頁 > 網易號 > 正文申請入駐

大模型的無監督強化學習能走多遠？清華團隊給出了系統性答案

2026-03-23 14:55:15　來源: 機器之心Pro

河北舉報

分享至

強化學習的下一站：從監督到無監督

強化學習正在重塑大模型能力邊界。OpenAI o3、DeepSeek-R1、Gemini 3 等頂尖模型都在用大規模 RLVR（可驗證獎勵強化學習）刷新推理任務的天花板。但所有人都知道，純監督式訓練不可持續。人工標注成本指數級增長，在專業領域獲取可靠標注越來越難。當模型能力逼近甚至超越人類專家時，誰來給它打分？

從 TTRL 開始，無監督 RLVR（Unsupervised RLVR）應運而生，讓模型在沒有人工標注的情況下持續進化。這不僅是降本增效的需求，更是通往超級智能的必經之路。就像預訓練用無標注數據 training 出了 GPT，無監督 RLVR 能否延續這一奇跡？

論文鏈接: https://arxiv.org/abs/2603.08660
GitHub: https://github.com/PRIME-RL/TTRL/tree/urlvr-dev
X Thread: https://x.com/HBX_hbx/status/2031406636930338828

清華團隊一項最新研究，給這個看似美好的圖景畫出了第一條邊界。研究者系統解剖了無監督 RLVR 的內在機制，發現所有基于模型自身信號的內在獎勵方法，無論多數投票、熵獎勵還是其他變體，都遵循著一條相似的軌跡：訓練初期性能快速攀升，但到達某個臨界點后，開始不可逆地滑落。這不是某個方法的缺陷，而是機制的宿命：它們本質上都在銳化模型已有的偏好，像一個回聲室，讓模型不斷重復自己最初相信的東西。如果初始自信恰好正確，效果驚人；如果錯配，坍塌只是時間問題。

但這不意味著內在獎勵沒有價值。在小規模測試時訓練中，它依然能穩定提升性能，即使模型一開始全是錯的，也能在自我糾偏中進化。更重要的是，研究者找到了一個 “預言指標”，可以在大規模訓練前預判模型的可訓練性，無需跑完整條曲線。

當內在獎勵受限于模型自身的回聲時，外部獎勵方法開始展現不同圖景，比如讓模型利用生成與驗證的不對稱性來錨定獎勵。這類方法正在突破內在獎勵的天花板，讓無監督強化學習真正走向可擴展。

通往超級智能的路上，我們需要的不是盲目相信模型可以自我進化，而是知道什么時候該讓它傾聽自己的回聲，什么時候該把它推向真實世界的驗證。

內在獎勵方法：繁榮表象下的深層問題

過去一年，各種 “內在獎勵” 方法密集涌現。從多數投票到基于模型自信度 / 熵的變體，它們利用模型內在信號來構造 proxy reward，訓練前期性能飆升，甚至一度超過有監督方法。

研究者將這些方法根據獎勵的來源歸納為兩類：一類基于 certainty，直接取模型在推理軌跡上的置信度指標作為獎勵；另一類基于 ensemble，用多次 rollout 后的集成結果（如多數投票）來錨定正確。

雖然獎勵的來源是免費的，但是代價卻是昂貴的。在早期訓練性能飆升之后，繼續訓練會觸發典型的 reward hacking：

proxy reward 還在持續上漲，真實 performance 卻在崩潰
模型越來越自信，但答案卻越來越離譜
不同內在獎勵方法在不同模型上表現天差地別

更關鍵的是，沒人說得清為什么 work，又為什么 fail。

我們做了什么：拆開黑箱，劃清邊界

我們不想只是 “提出新方法刷個點”，我們想回答那個沒人說清的問題：

無監督 RLVR 的 scaling 上限在哪里？如果有上限，邊界在哪里？

為此，我們做了五件事：

統一理論框架：把看似五花八門的內在獎勵方法歸到同一個機制下，揭示它們殊途同歸的本質 —— 銳化模型初始分布，并給出理論收斂邊界。
大規模實證：11 個模型 × 5 種內在獎勵方法 × 超參數掃描，用數據說話，驗證了 “先升后降” 不是偶然，而是普適規律。
畫出安全區：不是所有場景都會崩潰。我們發現，在小規模 test-time training 中，內在獎勵可以安全使用，即使初始全錯也能穩定進化。
化陷阱為路標：rise and fall 不只是風險，它本身就是信息。我們用它提煉出模型先驗指示器，無需跑完整條 RL 曲線，就能預判一個基模是否適合強化學習。
探路替代方案：既然內在獎勵有天花板，我們就看向外部。初步探索基于生成 - 驗證不對稱的外部獎勵方法，看它能否真正突破內在獎勵的 scaling 極限。

四個關鍵發現

發現一：成敗取決于 "confidence-correctness" 對齊程度

我們建立了內在獎勵方法的統一理論，揭示所有內在獎勵方法的本質：銳化分布，即放大模型已有偏好，而非創造新知識。這個機制有個特性：

如果模型初始傾向正確 → 銳化有效，性能提升
如果模型初始傾向錯誤 → 銳化有害，加速崩潰

我們定義模型初始傾向（或者稱為模型先驗）為confidence-correctness 對齊程度，即當我們僅提升模型的自一致性時，有多大可能就能直接做對更多的題目。換句話說，一個先驗比較強的模型，本身已經掌握了解決問題的大部分知識，只是不夠自信以至于說不出正確的答案。

我們測試了 11 個模型、5 種方法、4 個常用的超參數，結論似乎是殘酷的：崩潰不可避免，只是時間問題。即使最穩定的配置也撐不過幾個 epoch。這說明可能不是工程問題，是數學必然。

左：成敗取決于置信度 - 正確性對齊程度；右：單條數據上置信度與正確性隨訓練的演化

? 發現二：小場景里反而安全

Rise and fall 是宿命，但宿命有它的適用范圍。

當訓練數據足夠少，比如 Test-Time Training 這種特定領域場景，內在獎勵方法反而展現出難得的穩定。原因很樸素：只在少量樣本上優化自信度，模型跑不了多遠就到頭了。即便它在這些樣本上變得 “超級自信”，也難以引發全局的策略偏移，OOD 任務上的準確率依然穩穩守住。

更有意思的是一個極端實驗：研究者刻意選了 32 條模型全錯的樣本作為訓練集。也就是說，內在獎勵給出的 proxy reward 從一開始就是錯的。結果呢？OOD 測試集上的性能依然在穩定提升。

這說明，內在獎勵不是在教模型 “什么是對的”，而是在教它 “更相信自己”。即使信錯了，這種自我強化也被牢牢鎖在局部，翻不起大浪。

左：小規模 TTT 穩定提升，不崩潰；右：不同訓練集規模下策略的 KL 偏移

發現三：判斷模型適不適合做 RL

Rise and fall 不只是風險，它本身就是信息。

既然內在獎勵的成敗取決于模型初始的 “置信度 - 正確性” 對齊程度，那能不能用這個對齊度，提前判斷一個基模是否適合做 RL？畢竟，跑一次大規模 RL 的成本太高了，而學界一直缺一個輕量級的預判指標。

研究者找到了一把尺子：模型坍塌步數（Model Collapse Step），去測量一個模型在內在獎勵訓練下，能撐多少步才完全崩潰。邏輯很簡單，如果崩潰越晚，說明模型的初始先驗越好，它本身就掌握更多正確知識，只是不夠自信；而這種先驗，恰恰是標準有監督 RL 能夠放大的東西。換句話說，內在獎勵的崩潰點，就是模型 “RL 可訓練性” 的天然指示器。

結果也印證了這一點。Qwen 這種公認 “適合 RL” 的模型系列，在內在獎勵下撐得更久。更有意思的是，這個指標無需任何 ground truth 標注，預測準確率超過傳統的 pass@k。

把失敗變成路標，把昂貴的試錯變成輕量級的預判。

左：不同基模在無監督內在獎勵訓練下的模型坍塌步數；中：對應基模有監督 RLVR 的性能提升。無監督內在獎勵下崩潰越晚，有監督 RLVR 之后效果越好，預測準確率超過傳統的 pass@k。

發現四：外部獎勵才是 scalable 的方向

如果內在獎勵注定有天花板，那路在何方？

問題的根源在于獎勵的來源。內在獎勵方法用模型自己的置信度來訓練模型自己，這就像一個閉環回聲室，獎勵信號永遠受限于模型已知的東西。你無法用它教會模型真正不知道的知識。

但無監督 RLVR 不止于此。我們把外部獎勵方法歸納為兩類：

利用無標注數據：從海量語料中挖掘獎勵信號。數據越多，獎勵信號越豐富，不會因為模型變強而枯竭。
利用生成 - 驗證不對稱性：讓模型自己生成答案，再用外部工具（編譯器、證明助手、模擬器）驗證并提供環境反饋。這些驗證器不會因為模型變強而失效，它們的判斷永遠客觀。

我們初步測試了自驗證方法，結果展現出一條截然不同的曲線：持續改進，沒有崩潰。原因很樸素，獎勵不來自 “模型有多自信”，而來自 “答案能否通過客觀驗證”。想出解法可能很難，但檢查對錯往往簡單；這種不對稱性，把模型的進化錨定在真實世界的鐵律上，而不是自己的回聲里。

內在獎勵追問 “你相信自己嗎”，外部獎勵追問 “這是真的嗎”。通往 scalable 的無監督強化學習，答案或許就在后者。

寫在最后：邊界之外

我們花了許多篇幅去描繪無監督強化學習的邊界。但這張地圖的價值，從來不在于告訴你 "此路不通"，而在于回答：在什么條件下，哪條路通。

一個系統能否通過審視自己而變得更好，取決于它最初的判斷有多準確。內在獎勵方法失敗的原因，恰恰是它們成功的原因，都是同一個機制：自我強化。區別只在于，被強化的是真理還是偏見。

當我們認清內在獎勵的宿命，才真正看清外部獎勵的星辰大海。通往 scalable 的無監督強化學習，需要的不是盲目相信模型可以自我進化，而是知道什么時候該讓它傾聽自己的回聲，什么時候該把它推向真實世界的驗證。

內在與外部不是對立，而是工具箱里的不同工具。認清邊界，不是為了止步，而是為了在邊界內自由創造，在邊界外尋找新的可能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.