<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      數據缺少標注RL能誘導模型推理嗎?Co-rewarding提供自監督RL方案

      0
      分享至



      本文來自香港浸會大學和上海交通大學的可信機器學習和推理組,已被ICLR 2026接收。

      目前,RLVR(Reinforcement Learning with Verifiable Rewards)已成為誘導大語言模型推理能力的主流技術路線。然而,RLVR 需要高質量標注數據來監督獎勵獲取,這一點是其可擴展性上的主要瓶頸。

      一旦走向不需要標注數據的 “自獎勵(Self-rewarding)” 強化學習訓練,模型往往會迅速陷入訓練崩潰(Training Collapse),看似獲取的獎勵(Reward)越來越高,實際上卻是在利用自我獎勵規則中的漏洞進行獎勵投機(Reward Hacking),而非真正答對問題獲取獎勵。

      究竟什么樣的強化學習(Reinforcement Learning,RL)訓練范式,才能在無需真實(Ground-truth)答案標注的情況下,實現穩定的 RL 訓練,誘導出模型的推理能力?

      針對這一挑戰,來自香港浸會大學和上海交通大學的可信機器學習和推理組提出了一個全新的自監督 RL 框架 ——Co-rewarding。該框架通過在數據端或模型端引入互補視角的自監督信號,穩定獎勵獲取,提升 RL 過程中模型獎勵投機的難度,從而有效避免 RL 訓練崩潰,實現穩定訓練和模型推理能力的誘導。



      • 論文標題:Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models
      • 論文鏈接:https://openreview.net/forum?id=fDk95XPsCU
      • 代碼鏈接:https://github.com/bigai-ai/LIFT-humanoid
      • Huggingface 鏈接:https://huggingface.co/collections/TMLR-Group-HF/co-rewarding

      自我獎勵策略訓練模型為什么會導致訓練崩潰?

      在缺乏標注數據的場景下,目前的自我獎勵策略均是通過強化模型的自信心來進行訓練,主要分為兩個類別:(1)基于熵(Entropy)的方法:通過最小化模型輸出內容的熵(Entropy),或最大化自我確定性(Self-certainty)等指標來強化模型的信心;(2)基于一致的方法:讓模型針對同一個問題多次輸出后,進行多數投票(Majority-voting)得到偽標簽(Pseudo label)來監督 RL 訓練。



      圖 1:左邊 4 個圖為訓練過程中驗證集上的性能曲線。右邊 2 個圖為訓練過程中的獎勵(Reward)曲線。

      無論是哪一類方法,它們都是讓當前模型從單一視角產生信號監督自己。這極易讓模型進行獎勵投機,以一種最容易方式拿到獎勵,而不是產生正確的推理路徑。這就像讓學生自己監督自己學習時,學生會自己 “開小差” 一樣。如圖 1 所示,模型會發現重復輸出部分 token 可以使得熵最小;模型輸出一個一致但錯誤的答案,也可以拿到獎勵。這就模型在 RL 的自我獎勵機制中以投機的方式獲取到最高獎勵,獎勵獲取與推理正確性逐步脫鉤,進而導致訓練崩潰。



      圖 2:Co-rewarding 框架示意圖。不同于單視角自我監督的方法,(a) Co-rewarding 引入其他視角互補的監督信號;(b) 從數據視角,Co-rewarding-I 使用原題和改寫題進行相互監督;(c) 從模型視角,Co-rewarding-II 使用一個教師參考模型產生偽標簽監督當前模型。

      Co-rewarding 提出關鍵轉變:互補視角進行監督和獎勵

      針對這一挑戰,Co-rewarding 提出避免訓練崩潰的關鍵轉變:不再相信單一視角的監督信號,而是主動引入 “互補視角的監督”,進而增加模型獎勵投機的難度。具體來看,Co-rewarding 分別從數據視角和模型視角給出兩種實現。

      方法一:Co-rewarding-I(數據視角)

      如圖 2 (b) 所示,Co-rewarding-I 從數據層面引入互補監督信號,對原問題構建語義等價但表述不同的改寫問題(Rephrased Questions),利用原問題與改寫問題之間的 “類比一致性” 進行相互監督:

      • 對原題與改寫題分別進行多次采樣,生成回答。
      • 用原題回答進行多數投票得到的偽標簽去監督改寫題,用改寫題回答多數投票得到的偽標簽監督原題。

      這種設計的關鍵在于:模型必須在不同表述下保持推理結果的一致性,才能持續獲得獎勵。相比單一視角下的一致性自洽,跨問題的一致性顯著提高了獎勵投機的難度,從而有效緩解訓練崩潰問題。

      方法二:Co-rewarding-II(模型視角)

      如圖 2 (c) 所示,Co-rewarding-II 從模型層面解開監督信號與當前 Policy 模型訓練之間的耦合,即監督信號所需要的偽標簽不是從當前 Policy 模型得到,而是一個另外的教師模型,這進一步降低了當前 Policy 模型對于獎勵信號的控制,增強了獎勵投機的難度:

      • 教師模型針對一個問題,生成多次推理回答,并多數投票產生偽標簽。
      • 學生 Policy 模型基于教師提供的偽標簽進行獎勵獲取和 RL 訓練。
      • 教師模型無需引入一個額外的模型,而是由學生模型通過 EMA(指數滑動平均) 更新參考模型(Reference Model)得到。

      這種 “慢更新教師 + 快更新學生” 的結構,本質上是一種時間解耦的自蒸餾(Self-distillation)機制,能夠有效避免當前 Policy 模型對于獎勵信號的操縱,從而顯著降低訓練崩潰風險。

      實驗結果:不僅更加穩定,而且性能更強

      在多個訓練集(MATH、DAPO-14k)、模型系列(Qwen2.5/3、Llama)上進行實驗。并在多個數學推理、代碼生成和通用領域基準數據集上進行評估,Co-rewarding 均展現出相比于現有自我獎勵方法的優勢:



      表 1:在 MATH 訓練集上的性能對比,顏色越深表示相同組內性能越好。Co-rewarding-I 相比于最好的自我獎勵的基線方法在 4 個數學相關的基準上的平均性能提升達到 + 4.42%



      表 2:在 DAPO-14K 訓練集上的性能對比,顏色越深表示相同組內性能越好。Co-rewarding-II 相比于最好的自我獎勵基線方法在 4 個數學相關的基準上的平均提升達到 + 12.90%

      • 從表 1 中得到,在 4 個數學推理基準上,相比于最好的自獎勵方法,Co-rewarding-I 平均性能提升達到 + 4.42%。從表 2 中得到,Co-rewarding-II 平均性能提升達到 + 12.90%。

      • 在一些情況下,Co-rewarding 甚至超越了真實答案進行監督的 RL 訓練得到模型,例如 Qwen3-8B-Base 基于 Co-rewarding-II 在 GSM8K 上達到了 Pass@1 為 94.01%。

      • 從圖 1 中觀察得到,Co-rewarding 在訓練過程中,驗證集上的性能曲線持續提升,獎勵持續獲取,無訓練崩潰和獎勵劫持現象發生。

      • Co-rewarding 在數學相關的訓練集上進行訓練,在代碼生成的基準上依舊取得性能提升。

      • Co-rewarding 在 MMLU-Pro 和 IFEval 等多任務和通用領域基準上性能保持穩定,未犧牲模型通用領域的性能。

      Co-rewarding 帶來的啟發

      自監督強化學習的關鍵,在于構造更 “可靠” 的監督信號來維持穩定和持續的學習。通過引入互補視角的獎勵監督機制,Co-rewarding 證明了:即便沒有人工標注,通過合理可靠的自我獎勵機制,大模型也可以穩定、持續地誘導出推理能力。這反應了自監督強化學習的潛力,在擺脫對于標注數據依賴的同時,更加符合 Scaling Law 的精神,能夠更加容易的獲取到更多的數據用于模型訓練。

      作者介紹

      張子卓、朱嘉寧(現 UT Austin 博后)、周展科、李烜、馮嘯來自香港浸會大學計算機系可信機器學習和推理組,葛馨木和趙孜鏵來自上海交通大學,團隊導師為韓波教授和姚江超教授。本研究工作的作者均在 NeurIPS、ICML、ICLR 等機器學習和人工智能頂會上發表多篇論文,主要研究方向為大語言模型推理。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      英超賽季沖刺 20支球隊各自都有什么期待呢?森林必然降級

      英超賽季沖刺 20支球隊各自都有什么期待呢?森林必然降級

      敖銘
      2026-02-26 00:27:56
      32強對陣及賽程出爐中國9席:趙心童VS墨菲門徒,周躍龍VS世界第2

      32強對陣及賽程出爐中國9席:趙心童VS墨菲門徒,周躍龍VS世界第2

      求球不落諦
      2026-02-25 07:58:51
      特魯姆普:奧沙利文現在很容易被擊敗,我建議他沒準備好就別參賽

      特魯姆普:奧沙利文現在很容易被擊敗,我建議他沒準備好就別參賽

      世界體壇觀察家
      2026-02-25 17:19:03
      阿嬌的瓜又炸了,聊天記錄曝光,顛覆想象

      阿嬌的瓜又炸了,聊天記錄曝光,顛覆想象

      聽風聽你
      2024-12-25 22:41:20
      訪華期間,默茨表達了一個“不滿”

      訪華期間,默茨表達了一個“不滿”

      道德經
      2026-02-26 00:31:35
      最新數據:爾灣居民年薪$10萬,購買力僅不到$6.6萬,難怪都搬到德州!

      最新數據:爾灣居民年薪$10萬,購買力僅不到$6.6萬,難怪都搬到德州!

      大洛杉磯LA
      2026-02-26 01:08:14
      省了100萬歐元!鄭智為西海岸敲定巴西外援,一分錢沒花,了不起

      省了100萬歐元!鄭智為西海岸敲定巴西外援,一分錢沒花,了不起

      羅掌柜體育
      2026-02-25 10:04:13
      沖上熱搜!中秋請3天假堪比春節,13天超長假期!最實用拼假攻略已備好

      沖上熱搜!中秋請3天假堪比春節,13天超長假期!最實用拼假攻略已備好

      上觀新聞
      2026-02-25 14:08:57
      何超瓊身價突破700億,3位保鏢一同出行,手里的包包成為亮點

      何超瓊身價突破700億,3位保鏢一同出行,手里的包包成為亮點

      素素娛樂
      2026-02-24 08:11:21
      這六類人將直接成為公務員,無需考試晉升還快!

      這六類人將直接成為公務員,無需考試晉升還快!

      深度報
      2026-02-15 23:18:45
      突發!南京一民辦宣布注銷!

      突發!南京一民辦宣布注銷!

      南京擇校
      2026-02-25 22:48:09
      比賭博還狠的“隱形毒藥”,正慢慢掏空中國家庭,無數人被它拖垮

      比賭博還狠的“隱形毒藥”,正慢慢掏空中國家庭,無數人被它拖垮

      千秋文化
      2026-02-10 20:55:47
      17萬粉絲博主奇葩言論!燃油車加油只能干等,電車充電可去上廁所

      17萬粉絲博主奇葩言論!燃油車加油只能干等,電車充電可去上廁所

      火山詩話
      2026-02-25 08:58:06
      兩個小藥丸兒,一個助硬,一個延時長,在家門口的藥店就能買到

      兩個小藥丸兒,一個助硬,一個延時長,在家門口的藥店就能買到

      中醫陳旺醫生
      2025-11-14 10:43:05
      上海已經行動,2026年拆遷還要加速?

      上海已經行動,2026年拆遷還要加速?

      巢客HOME
      2026-02-24 19:19:26
      法國新型超聲速核導彈亮相

      法國新型超聲速核導彈亮相

      財聯社
      2026-02-24 15:39:13
      三星首款防窺屏旗艦手機Galaxy S26 Ultra發布,9999元起

      三星首款防窺屏旗艦手機Galaxy S26 Ultra發布,9999元起

      IT之家
      2026-02-26 02:35:43
      村里紅白事從不回,男子母親離世,鄰居等著看笑話,結果長了見識

      村里紅白事從不回,男子母親離世,鄰居等著看笑話,結果長了見識

      子芫伴你成長
      2026-02-23 12:21:40
      夫妻之中,誰的基因決定了孩子的智商和長相?專家的回答很統一

      夫妻之中,誰的基因決定了孩子的智商和長相?專家的回答很統一

      一口娛樂
      2026-02-25 15:45:19
      澳大利亞驚現封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產物

      澳大利亞驚現封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產物

      第7情感
      2026-02-23 20:45:16
      2026-02-26 03:52:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12362文章數 142569關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      夫妻晚5秒錯過免費高速付1700元:氣得我不得了

      頭條要聞

      夫妻晚5秒錯過免費高速付1700元:氣得我不得了

      體育要聞

      勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

      娛樂要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財經要聞

      上海樓市放大招,地產預期別太大

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      旅游
      教育
      時尚
      親子
      軍事航空

      旅游要聞

      重慶酉陽櫻花漫古城,吊腳飛檐藏春歸,這才是中式浪漫天花板!

      教育要聞

      2026馬年的中國境外留學市場會提速嗎?

      “復古甜心”穿搭突然大火!春天穿時髦又減齡

      親子要聞

      笑麻了!當家里的小朋友有了微信,網友:一天得問十幾遍

      軍事要聞

      俄烏沖突四周年:和平談判希望渺茫

      無障礙瀏覽 進入關懷版