<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型的無監督強化學習能走多遠?清華團隊給出了系統性答案

      0
      分享至



      強化學習的下一站:從監督到無監督

      強化學習正在重塑大模型能力邊界。OpenAI o3、DeepSeek-R1、Gemini 3 等頂尖模型都在用大規模 RLVR(可驗證獎勵強化學習)刷新推理任務的天花板。但所有人都知道,純監督式訓練不可持續。人工標注成本指數級增長,在專業領域獲取可靠標注越來越難。當模型能力逼近甚至超越人類專家時,誰來給它打分?

      從 TTRL 開始,無監督 RLVR(Unsupervised RLVR)應運而生,讓模型在沒有人工標注的情況下持續進化。這不僅是降本增效的需求,更是通往超級智能的必經之路。就像預訓練用無標注數據 training 出了 GPT,無監督 RLVR 能否延續這一奇跡?



      • 論文鏈接: https://arxiv.org/abs/2603.08660
      • GitHub: https://github.com/PRIME-RL/TTRL/tree/urlvr-dev
      • X Thread: https://x.com/HBX_hbx/status/2031406636930338828

      清華團隊一項最新研究,給這個看似美好的圖景畫出了第一條邊界。研究者系統解剖了無監督 RLVR 的內在機制,發現所有基于模型自身信號的內在獎勵方法,無論多數投票、熵獎勵還是其他變體,都遵循著一條相似的軌跡:訓練初期性能快速攀升,但到達某個臨界點后,開始不可逆地滑落。這不是某個方法的缺陷,而是機制的宿命:它們本質上都在銳化模型已有的偏好,像一個回聲室,讓模型不斷重復自己最初相信的東西。如果初始自信恰好正確,效果驚人;如果錯配,坍塌只是時間問題。

      但這不意味著內在獎勵沒有價值。在小規模測試時訓練中,它依然能穩定提升性能,即使模型一開始全是錯的,也能在自我糾偏中進化。更重要的是,研究者找到了一個 “預言指標”,可以在大規模訓練前預判模型的可訓練性,無需跑完整條曲線。

      當內在獎勵受限于模型自身的回聲時,外部獎勵方法開始展現不同圖景,比如讓模型利用生成與驗證的不對稱性來錨定獎勵。這類方法正在突破內在獎勵的天花板,讓無監督強化學習真正走向可擴展。

      通往超級智能的路上,我們需要的不是盲目相信模型可以自我進化,而是知道什么時候該讓它傾聽自己的回聲,什么時候該把它推向真實世界的驗證。



      內在獎勵方法:繁榮表象下的深層問題

      過去一年,各種 “內在獎勵” 方法密集涌現。從多數投票到基于模型自信度 / 熵的變體,它們利用模型內在信號來構造 proxy reward,訓練前期性能飆升,甚至一度超過有監督方法

      研究者將這些方法根據獎勵的來源歸納為兩類:一類基于 certainty,直接取模型在推理軌跡上的置信度指標作為獎勵;另一類基于 ensemble,用多次 rollout 后的集成結果(如多數投票)來錨定正確。



      雖然獎勵的來源是免費的,但是代價卻是昂貴的。在早期訓練性能飆升之后,繼續訓練會觸發典型的 reward hacking:

      • proxy reward 還在持續上漲,真實 performance 卻在崩潰
      • 模型越來越自信,但答案卻越來越離譜
      • 不同內在獎勵方法在不同模型上表現天差地別

      更關鍵的是,沒人說得清為什么 work,又為什么 fail

      我們做了什么:拆開黑箱,劃清邊界

      我們不想只是 “提出新方法刷個點”,我們想回答那個沒人說清的問題:

      無監督 RLVR 的 scaling 上限在哪里?如果有上限,邊界在哪里?

      為此,我們做了五件事:

      • 統一理論框架:把看似五花八門的內在獎勵方法歸到同一個機制下,揭示它們殊途同歸的本質 —— 銳化模型初始分布,并給出理論收斂邊界。
      • 大規模實證:11 個模型 × 5 種內在獎勵方法 × 超參數掃描,用數據說話,驗證了 “先升后降” 不是偶然,而是普適規律。
      • 畫出安全區:不是所有場景都會崩潰。我們發現,在小規模 test-time training 中,內在獎勵可以安全使用,即使初始全錯也能穩定進化。
      • 化陷阱為路標:rise and fall 不只是風險,它本身就是信息。我們用它提煉出模型先驗指示器,無需跑完整條 RL 曲線,就能預判一個基模是否適合強化學習。
      • 探路替代方案:既然內在獎勵有天花板,我們就看向外部。初步探索基于生成 - 驗證不對稱的外部獎勵方法,看它能否真正突破內在獎勵的 scaling 極限。

      四個關鍵發現

      發現一:成敗取決于 "confidence-correctness" 對齊程度

      我們建立了內在獎勵方法的統一理論,揭示所有內在獎勵方法的本質:銳化分布,即放大模型已有偏好,而非創造新知識。這個機制有個特性:

      • 如果模型初始傾向正確 → 銳化有效,性能提升
      • 如果模型初始傾向錯誤 → 銳化有害,加速崩潰

      我們定義模型初始傾向(或者稱為模型先驗)為confidence-correctness 對齊程度,即當我們僅提升模型的自一致性時,有多大可能就能直接做對更多的題目。換句話說,一個先驗比較強的模型,本身已經掌握了解決問題的大部分知識,只是不夠自信以至于說不出正確的答案。

      我們測試了 11 個模型、5 種方法、4 個常用的超參數,結論似乎是殘酷的:崩潰不可避免,只是時間問題。即使最穩定的配置也撐不過幾個 epoch。這說明可能不是工程問題,是數學必然。



      左:成敗取決于置信度 - 正確性對齊程度;右:單條數據上置信度與正確性隨訓練的演化

      ? 發現二:小場景里反而安全

      Rise and fall 是宿命,但宿命有它的適用范圍。

      當訓練數據足夠少,比如 Test-Time Training 這種特定領域場景,內在獎勵方法反而展現出難得的穩定。原因很樸素:只在少量樣本上優化自信度,模型跑不了多遠就到頭了。即便它在這些樣本上變得 “超級自信”,也難以引發全局的策略偏移,OOD 任務上的準確率依然穩穩守住。

      更有意思的是一個極端實驗:研究者刻意選了 32 條模型全錯的樣本作為訓練集。也就是說,內在獎勵給出的 proxy reward 從一開始就是錯的。結果呢?OOD 測試集上的性能依然在穩定提升。

      這說明,內在獎勵不是在教模型 “什么是對的”,而是在教它 “更相信自己”。即使信錯了,這種自我強化也被牢牢鎖在局部,翻不起大浪。



      左:小規模 TTT 穩定提升,不崩潰;右:不同訓練集規模下策略的 KL 偏移

      發現三:判斷模型適不適合做 RL

      Rise and fall 不只是風險,它本身就是信息。

      既然內在獎勵的成敗取決于模型初始的 “置信度 - 正確性” 對齊程度,那能不能用這個對齊度,提前判斷一個基模是否適合做 RL?畢竟,跑一次大規模 RL 的成本太高了,而學界一直缺一個輕量級的預判指標。

      研究者找到了一把尺子:模型坍塌步數(Model Collapse Step),去測量一個模型在內在獎勵訓練下,能撐多少步才完全崩潰。邏輯很簡單,如果崩潰越晚,說明模型的初始先驗越好,它本身就掌握更多正確知識,只是不夠自信;而這種先驗,恰恰是標準有監督 RL 能夠放大的東西。換句話說,內在獎勵的崩潰點,就是模型 “RL 可訓練性” 的天然指示器。

      結果也印證了這一點。Qwen 這種公認 “適合 RL” 的模型系列,在內在獎勵下撐得更久。更有意思的是,這個指標無需任何 ground truth 標注,預測準確率超過傳統的 pass@k。

      把失敗變成路標,把昂貴的試錯變成輕量級的預判。



      左:不同基模在無監督內在獎勵訓練下的模型坍塌步數;中:對應基模有監督 RLVR 的性能提升。無監督內在獎勵下崩潰越晚,有監督 RLVR 之后效果越好,預測準確率超過傳統的 pass@k。

      發現四:外部獎勵才是 scalable 的方向

      如果內在獎勵注定有天花板,那路在何方?

      問題的根源在于獎勵的來源。內在獎勵方法用模型自己的置信度來訓練模型自己,這就像一個閉環回聲室,獎勵信號永遠受限于模型已知的東西。你無法用它教會模型真正不知道的知識。

      但無監督 RLVR 不止于此。我們把外部獎勵方法歸納為兩類:

      • 利用無標注數據:從海量語料中挖掘獎勵信號。數據越多,獎勵信號越豐富,不會因為模型變強而枯竭。
      • 利用生成 - 驗證不對稱性:讓模型自己生成答案,再用外部工具(編譯器、證明助手、模擬器)驗證并提供環境反饋。這些驗證器不會因為模型變強而失效,它們的判斷永遠客觀。

      我們初步測試了自驗證方法,結果展現出一條截然不同的曲線:持續改進,沒有崩潰。原因很樸素,獎勵不來自 “模型有多自信”,而來自 “答案能否通過客觀驗證”。想出解法可能很難,但檢查對錯往往簡單;這種不對稱性,把模型的進化錨定在真實世界的鐵律上,而不是自己的回聲里。

      內在獎勵追問 “你相信自己嗎”,外部獎勵追問 “這是真的嗎”。通往 scalable 的無監督強化學習,答案或許就在后者。



      寫在最后:邊界之外

      我們花了許多篇幅去描繪無監督強化學習的邊界。但這張地圖的價值,從來不在于告訴你 "此路不通",而在于回答:在什么條件下,哪條路通

      一個系統能否通過審視自己而變得更好,取決于它最初的判斷有多準確。內在獎勵方法失敗的原因,恰恰是它們成功的原因,都是同一個機制:自我強化。區別只在于,被強化的是真理還是偏見。

      當我們認清內在獎勵的宿命,才真正看清外部獎勵的星辰大海。通往 scalable 的無監督強化學習,需要的不是盲目相信模型可以自我進化,而是知道什么時候該讓它傾聽自己的回聲,什么時候該把它推向真實世界的驗證。

      內在與外部不是對立,而是工具箱里的不同工具。認清邊界,不是為了止步,而是為了在邊界內自由創造,在邊界外尋找新的可能

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      真主黨精銳指揮官被斬首

      真主黨精銳指揮官被斬首

      桂系007
      2026-03-22 23:47:51
      登頂收視No.1,這部韓劇又贏麻了

      登頂收視No.1,這部韓劇又贏麻了

      來看美劇
      2026-03-20 20:29:26
      現貨黃金失守4110美元/盎司,日內跌8.65%

      現貨黃金失守4110美元/盎司,日內跌8.65%

      每日經濟新聞
      2026-03-23 15:31:19
      過去中國化解美國四次阻擊,成就國運,現美伊之戰是第五次國運嗎

      過去中國化解美國四次阻擊,成就國運,現美伊之戰是第五次國運嗎

      阿胡
      2026-03-19 12:03:16
      周杰倫新專銷量不容樂觀!和第一名蔡徐坤差100多萬張,反超太難

      周杰倫新專銷量不容樂觀!和第一名蔡徐坤差100多萬張,反超太難

      萌神木木
      2026-03-23 14:41:48
      梅姨案細節公布!每交易一名兒童收1000元介紹費;網傳照片都非本人,現階段警方不會公布

      梅姨案細節公布!每交易一名兒童收1000元介紹費;網傳照片都非本人,現階段警方不會公布

      新民晚報
      2026-03-23 16:25:53
      馬龍也沒想到,同樣是倆兒子,王皓家一個高爾夫冠軍一個乒乓冠軍

      馬龍也沒想到,同樣是倆兒子,王皓家一個高爾夫冠軍一個乒乓冠軍

      以茶帶書
      2026-03-23 13:12:12
      項羽為何被評為千古無二?他創造的3個世界第一,至今無人能超越

      項羽為何被評為千古無二?他創造的3個世界第一,至今無人能超越

      文史達觀
      2026-03-22 16:48:03
      實探杭州“假裝上班公司”:包月有“全勤獎”,老板稱不愿客戶變成真上班,拒絕做違法違規的事

      實探杭州“假裝上班公司”:包月有“全勤獎”,老板稱不愿客戶變成真上班,拒絕做違法違規的事

      極目新聞
      2026-03-22 22:55:43
      P圖騙流量!伊朗喊著橫掃中東,昨日發射量曝光,凄慘到不敢看

      P圖騙流量!伊朗喊著橫掃中東,昨日發射量曝光,凄慘到不敢看

      老馬拉車莫少裝
      2026-03-23 15:57:52
      愛國者斷供8個月,烏軍早該啞火!俄軍空襲卻遭攔截:導彈哪來的

      愛國者斷供8個月,烏軍早該啞火!俄軍空襲卻遭攔截:導彈哪來的

      李健政觀察
      2026-03-23 16:34:26
      徹底失控!伊朗警告2小時后,全球最大天然氣基地遭導彈猛轟!

      徹底失控!伊朗警告2小時后,全球最大天然氣基地遭導彈猛轟!

      芊芊子吟
      2026-03-23 12:40:09
      細節流出!拉里賈尼遇襲事件疑點叢生,恐有詐!

      細節流出!拉里賈尼遇襲事件疑點叢生,恐有詐!

      劉哥談體育
      2026-03-23 07:21:45
      比亞迪大唐EV獲購置稅減免資格,純電續航曝光引關注

      比亞迪大唐EV獲購置稅減免資格,純電續航曝光引關注

      第壹新車
      2026-03-23 11:51:17
      越南向世界隱瞞四十余年,對越反擊戰中,越南竟然還藏了驚人力量

      越南向世界隱瞞四十余年,對越反擊戰中,越南竟然還藏了驚人力量

      你是我心中最美星空
      2026-03-22 19:56:58
      三個省級黨委領導班子調整

      三個省級黨委領導班子調整

      吉刻新聞
      2026-03-22 13:08:34
      德轉:遼寧鐵人外援瓦吉奇的轉會費為100萬歐元

      德轉:遼寧鐵人外援瓦吉奇的轉會費為100萬歐元

      懂球帝
      2026-03-23 16:35:06
      2026年,狠人新詞“30倍杠桿做空閨蜜”橫空出世

      2026年,狠人新詞“30倍杠桿做空閨蜜”橫空出世

      流蘇晚晴
      2026-03-22 20:02:36
      奧沙利文丟冠原因曝光,最新斯諾克排名出爐,丁俊暉情況不妙

      奧沙利文丟冠原因曝光,最新斯諾克排名出爐,丁俊暉情況不妙

      曹說體育
      2026-03-23 15:21:30
      網紅富二代王政源被判入獄兩年半,罰1500萬,央視財經9分大制作

      網紅富二代王政源被判入獄兩年半,罰1500萬,央視財經9分大制作

      陳意小可愛
      2026-03-23 16:00:10
      2026-03-23 18:52:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12576文章數 142591關注度
      往期回顧 全部

      科技要聞

      裁掉2萬多名員工后,扎克伯格對自己下手了

      頭條要聞

      伊朗豁出去了:若美以敢炸發電廠 整個中東就同歸于盡

      頭條要聞

      伊朗豁出去了:若美以敢炸發電廠 整個中東就同歸于盡

      體育要聞

      不敢放手一搏,你拿什么去爭冠?

      娛樂要聞

      劉燁47歲生日,安娜曬全家福為其慶生

      財經要聞

      滬指險守3800點!真正的恐慌盤出現了?

      汽車要聞

      "拒絕"豪車稅 新款Panamera盡享版99.8萬元起精準入局

      態度原創

      時尚
      藝術
      游戲
      教育
      健康

      “這條裙子”才是今年春天的頂流,怎么搭都好看

      藝術要聞

      如此美妙的光影,安靜而溫暖,真令人折服!

      《超英派遣中心》Steam售價新史低!八折熱賣中!

      教育要聞

      武漢學院:英語四級628、六級622,她是怎么做到的?

      轉頭就暈的耳石癥,能開車上班嗎?

      無障礙瀏覽 進入關懷版