<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      人大高瓴趙鑫團隊新作:先拆掉 RLVR,再重建推理模型訓練

      0
      分享至

      當大語言模型開始被要求解數學題、寫證明、規劃任務流程,人們才真正意識到一件事:會生成并不等于會推理。

      過去幾年,行業把大模型推向前所未有的規模,用 RLHF 和各種獎勵技術把答案校準得越來越像人類。但一個越來越尖銳的現實問題也隨之浮現:模型為什么有時一本正經地胡說八道?為什么在同一訓練框架下,它有時異常自信卻錯誤,有時又顯得畏首畏尾?在人們不斷強化學習信號、追求更高分數的同時,一個關鍵問題始終沒有被真正回答:正樣本與負樣本到底在模型內部改變了什么。

      正是在這樣的背景下,來自人大高瓴學院的趙鑫團隊把注意力放在了這一核心問題上。他們沒有急于再提出一個更大的模型或更復雜的算法,而是刻意退后一步,圍繞 RLVR 框架設計了一整套系統實驗:如果只用正樣本會發生什么,只用負樣本又會產生怎樣的行為變化。模型是在真正形成推理能力,還是被獎勵函數推著走向某些看似合理的套路?進一步地,在一條完整的推理鏈中,是否存在少數關鍵 token,像岔路口一樣決定模型是走向正確,還是自信地偏離軌道。

      圍繞這些問題,研究團隊完成了論文《A3PO: Adaptive Asymmetric Advantage Shaping for Reasoning Models》,并提出了推理模型訓練方法 A3PO。與其說這是一次方法層面的創新,不如說它首先完成了一次機制澄清:正樣本主要收縮策略空間,使模型在既有正確路徑上更加篤定,負樣本則擴張策略空間,推動模型跳出舊有模式持續探索,而真正決定訓練走向的,并非整條樣本本身,而是推理過程中那些冷門卻正確、以及自信但錯誤的關鍵 token。

      在這一認識基礎上形成的 A3PO 方法,將訓練重點從整體樣本轉向關鍵決策點,使推理模型的學習過程變得更加可解釋、也更可控制。這一轉變表明,推理大模型的進步不再只是依賴規模和算力,而正在走向對訓練機制本身的深入理解。


      論文地址:https://arxiv.org/pdf/2512.21625v1

      正樣本「收縮」vs 負樣本「探索」

      實驗中,研究人員首先對比了正樣本和負樣本,并發現它們在訓練過程中起到的作用完全不同。

      具體表現為,當只用正樣本訓練(PSR)時,模型會變得越來越確定:熵迅速下降,輸出分布越來越尖銳,答案長度明顯變短,經常直接給出結果而不展開完整推理。這說明正樣本更多是在強化已經正確的推理路徑,讓模型不斷重復熟悉的解題套路,同時也會抑制繼續探索新路徑。


      與此相反,只用負樣本訓練(NSR)時,模型的熵保持在較高水平甚至上升,回答長度變長,推理步驟增多,表現出更強的嘗試和探索傾向。這是因為負樣本訓練主要在削弱錯誤 token 的概率,使原本集中的概率被分散到其他候選路徑上,從而帶來更強的探索能力。

      不過,實驗也表明,兩種極端方式其實都不理想:只用正樣本容易出現 reward hacking,只報答案不推理,只用負樣本訓練不穩定,甚至可能生成亂碼。整體比較下來,正負樣本同時使用(DAPO)時訓練曲線更平穩,泛化能力也最好。


      在此基礎上,研究人員又引入銳化(sharpen)和發現(discovery)兩個指標來刻畫模型生成內容的變化。銳化指標反映模型是否在重復歷史正確答案中已經出現過的 n-gram,而發現指標反映是否產生了新的、從未出現過的 n-gram。雷峰網

      結果顯示,在銳化指標上,PSR 高于 DAPO,DAPO 又高于 NSR,在發現指標上則相反,NSR 最高,DAPO 居中,PSR 最低。這表明正樣本更像在磨刀,使已有正確模式變得更熟練、更穩定,而負樣本更像在開路,推動模型尋找新的推理方式,兩者結合才能既保證穩定性,又拓展能力上限。


      研究團隊還從極性級 advantage 的角度分析了正負樣本權重的影響。以 Qwen2.5-7B-Math 為例,當增大正樣本權重(如 P2N1、P1N0.5)時,訓練獎勵上升更快,但熵明顯下降、輸出變短,探索能力減弱,權重過大時甚至會過擬合既有模式,而當增大負樣本權重(如 P1N5)時,熵和輸出長度都更高,探索更充分,但獎勵上升變慢,模型表現得更加謹慎。

      實驗表明,決定訓練動態的關鍵不在于各自權重的絕對大小,而在于正負樣本之間的比例,例如 P2N1 與 P1N0.5 的比例相同,曲線表現也非常相似。總體來看,正負 advantage 比例大約在 1:2 左右時,能夠較好地兼顧收斂速度與探索能力。


      最后,在 token 級別的實驗中,研究人員進一步分析了哪些 token 在訓練中最關鍵。結果發現,并不是所有 token 都同等重要,而是兩類最關鍵:一類是正樣本中的低概率 token,即冷門但正確的推理步驟,另一類是負樣本中的高概率 token,也就是模型非常自信但實際上是錯誤的部分。

      前者需要重點獎勵,以保留多樣但正確的推理路徑,后者需要重點懲罰,防止模型固執地堅持錯誤答案。新提出的 A3PO 方法正是圍繞這兩類關鍵 token 進行非對稱加權設計的,這一點也得到了實驗數據的支持。

      在 Qwen2.5-7B-Math 上,A3PO 在 AIME24 與 AIME25 上分別從 DAPO 的 27.6 和 21.4 提升到 31.5 和 24.8;在 Qwen3-8B-Base 上,也從 34.2/26.1 提升到 37.8/30.4;在 DeepSeek-R1 蒸餾模型上,則從 60.8/50.8 提升到 65.2/54.1。并且,這些提升不僅出現在單一數據集上,而是在 AIME、MATH500、GPQA 等多個基準上同時出現,其中多項結果還通過了顯著性檢驗。

      因此,可以認為 A3PO 在保持較強探索能力的同時,確實在不同模型與不同評測任務上帶來了穩定且明確的性能提升。


      在機制分析基礎上構建 A3PO

      為了得到全面的實驗結果,研究人員首先圍繞 RLVR 框架搭建了一系列對照實驗,目的是不急于提出新方法,而是先把正樣本和負樣本的作用拆開來看,分別考察只用正樣本、只用負樣本以及正負樣本同時使用時模型的具體表現。雷峰網

      實驗選擇了三種類型不同的大語言模型作為基座,包括數學能力增強的 Qwen2.5-7B-Math、通用預訓練模型 Qwen3-8B-Base 以及經過推理蒸餾的 DeepSeek-R1-Distill-Qwen-7B,并分別在三種訓練范式下進行對比:只使用正樣本更新的 PSR,只使用負樣本更新的 NSR,以及同時利用正負樣本、目前較常用的 DAPO 方法。


      整個訓練過程中不僅跟蹤模型的熵、生成回答長度和獎勵值等指標,以反映其確定性與探索性的變化,還在驗證集上測試 AIME25 的 Avg@32 和 Pass@32 等指標,來評估真實推理能力。


      在確認正負樣本都發揮重要且不同作用之后,研究人員進一步進行粗粒度的參數控制實驗,從極性層面調整 advantage 權重。在 Qwen2.5-7B-Math 上,將 RLVR 的損失函數拆分為正樣本項和負樣本項,通過設置不同的權重組合(如正負 1:5 或 2:1 等),系統比較不同權重比例下模型的熵、輸出長度、訓練獎勵以及 AIME24 上的表現,從而分析正負樣本整體權重對訓練動態的影響。


      在此基礎上,研究視角被進一步細化到 token 層面。研究人員不再僅討論“正負樣本整體重要與否”,而是考察一條推理序列內部不同 token 的差異作用。具體做法是根據 token 的熵和概率兩個維度,挑選出正樣本和負樣本中高熵與低熵、高概率與低概率的不同 token 類型,然后分別對這些 token 的 advantage 進行大幅放縮,例如乘以 0.2 或 5,觀察模型訓練曲線與生成行為隨之發生的變化,從而找出真正對訓練最敏感、最關鍵的 token 區域。


      在完成以上一系列分析之后,研究團隊提出了新的 A3PO 方法,其核心思想是在 RLVR 目標中引入自適應且非對稱的 token 級 advantage 加權機制:對正樣本中低概率的 token 給予更高獎勵,以鼓勵保留多樣但正確的推理路徑,對負樣本中高概率的 token 給予更強懲罰,以重點糾正模型自信但錯誤的推理。同時,這些加權系數在訓練過程中逐步衰減,使模型能夠從前期的更強探索自然過渡到后期的穩定收斂。

      實驗采用與前述相同的三種模型,在 DAPO-Math 數據集上進行訓練,基于 Verl 與 vLLM 的離線強化學習框架,每個提示生成 8 個樣本,訓練 300 步,并與 GRPO、DAPO、W-REINFORCE、DAPO-Fork-Tokens 和 Lp-Reg 等方法進行對比,測試任務涵蓋 AIME24、AIME25、MATH500、GPQA 與 LiveCodeBench 等多個推理基準。


      此外,研究團隊還系統評估了 A3PO 在不同模型規模和不同訓練數據集上的泛化能力,并對其關鍵超參數(包括 token 選擇比例、初始縮放系數 ρ 以及衰減系數 α)進行了敏感性分析,從而形成完整的實驗設計框架。

      正負樣本作用邊界的重新界定

      整體來看,這項研究的核心意義在于,它把原本相對模糊的 RLVR 訓練過程,轉化為一個具有清晰結構和內部機制解釋的框架。過去在強化學習訓練推理模型時,人們大致知道需要正樣本,也會使用負樣本,但往往難以回答一個根本問題:正負樣本各自在訓練中究竟起什么作用,它們如何改變模型的學習動力學。

      這項工作通過系統實驗給出了明確答案:正樣本主要收縮策略空間,使模型已經掌握的正確模式更加集中和穩定,負樣本則擴張策略空間,迫使模型脫離舊有模式,去探索新的推理路徑。更重要的是,研究并未停留在正樣本銳化能力、負樣本促進探索這樣的概括層面,而是進一步指出訓練質量真正取決于哪些具體決策點被重點強化。

      研究表明,正樣本中那些原本選擇概率較低但通向正確答案的 token,以及負樣本中那些模型高度自信卻指向錯誤答案的 token,對探索與利用平衡具有決定性影響。

      A3PO 的設計正是把這一認識具體化為訓練原則,在這些關鍵拐點上進行非對稱 advantage 放大,并隨訓練進程逐步衰減這種偏置。由此,強化學習不再只是簡單地增加正確獎勵或扣減錯誤分數,而是轉向圍繞關鍵局部決策點有針對性地塑造策略分布。這樣的視角,使正負樣本從被動的數據來源,轉變為可被精細調控的優化工具,也把方法研究從經驗性調參提升到機制性設計層面。

      從更長遠看,這一思路為大模型對齊、多模態推理以及智能體決策中的強化學習提供了共同的方向,即不再平均對待所有行為信號,而是抓住那些對整體策略結構影響最大的關鍵 token 和關鍵狀態進行重點塑形。

      背后的學術力量

      這篇論文的通訊作者為趙鑫,現任中國人民大學高瓴人工智能學院教授、長聘副教授,同時他也是國家優青項目獲得者。

      趙鑫教授于 2014 年 7 月在北京大學取得博士學位,之后就職于中國人民大學,至今一直從事教學與科研工作。他的主要研究領域為信息檢索與自然語言處理,目前已發表學術論文 200 余篇,谷歌學術引用量超過 1.8 萬次。

      他牽頭開發了開源推薦系統工具 RecBole(伯樂)和文本生成工具 TextBox(妙筆),并組織撰寫了《A Survey of Large Language Models》綜述論文及中文專著《大語言模型》。

      趙鑫教授先后獲得吳文俊人工智能優秀青年獎(2020)、ECIR 2021 時間檢驗獎、RecSys 2022 最佳學生論文提名、CIKM 2022 最佳資源論文提名等榮譽稱號,同時入選中國科協青年人才托舉工程、北京智源青年科學家和 CCF–IEEE CS 青年科學家計劃,其系列研究成果還榮獲教育部自然科學一等獎、北京市自然科學二等獎及中國計算機學會自然科學二等獎。


      參考鏈接:https://gsai.ruc.edu.cn/waynexinzhao

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      越來越多人臥室不放“雙人床”了?看了上海人做法,真高級!

      越來越多人臥室不放“雙人床”了?看了上海人做法,真高級!

      Home范
      2026-01-22 12:33:11
      電車用10年?只要車企要求車主別長期用快充就達不到,都是吹牛

      電車用10年?只要車企要求車主別長期用快充就達不到,都是吹牛

      柏銘銳談
      2026-01-23 20:18:54
      奧巴馬是美國歷史上最壞的總統,沒有之一

      奧巴馬是美國歷史上最壞的總統,沒有之一

      墨羽怪談
      2026-01-24 22:03:52
      2026年都快過年了,為啥還有這么多人死磕買油車?其實答案很簡單

      2026年都快過年了,為啥還有這么多人死磕買油車?其實答案很簡單

      周哥一影視
      2026-01-23 12:39:06
      唯一在世的中共一代領導人,曾任中央政治局常委,如今109歲

      唯一在世的中共一代領導人,曾任中央政治局常委,如今109歲

      星辰故事屋
      2026-01-23 12:14:47
      德足協副主席呼吁抵制2026世界杯:我們正忘記如何捍衛價值觀

      德足協副主席呼吁抵制2026世界杯:我們正忘記如何捍衛價值觀

      懂球帝
      2026-01-24 04:17:30
      最令大齡剩女崩潰的一瞬間在什么時候?看網友的評論引起萬千共鳴

      最令大齡剩女崩潰的一瞬間在什么時候?看網友的評論引起萬千共鳴

      夜深愛雜談
      2026-01-10 22:27:12
      1955年,一名身體強壯的日本女人赤裸上身背著黑色編織袋站在海邊

      1955年,一名身體強壯的日本女人赤裸上身背著黑色編織袋站在海邊

      忠于法紀
      2026-01-07 17:46:09
      李斯三斗趙高皆?。呵Ч乓幌酁楹瓮娌贿^一個宦官?

      李斯三斗趙高皆?。呵Ч乓幌酁楹瓮娌贿^一個宦官?

      掠影后有感
      2026-01-20 12:06:32
      四天連評,自媒體的脖子已擰成麻花

      四天連評,自媒體的脖子已擰成麻花

      梳子姐
      2026-01-22 19:21:59
      40歲左右得女性這樣打扮,既優雅又有成熟女人的魅力

      40歲左右得女性這樣打扮,既優雅又有成熟女人的魅力

      牛彈琴123456
      2025-12-28 16:35:58
      亞足聯官方出手!要為中國隊撐腰,重罰越南隊

      亞足聯官方出手!要為中國隊撐腰,重罰越南隊

      綠茵舞著
      2026-01-24 16:58:24
      “林肯”號航母打擊群抵達中東,美軍做好準備,等待特朗普下令

      “林肯”號航母打擊群抵達中東,美軍做好準備,等待特朗普下令

      山河路口
      2026-01-24 22:30:19
      新中國第一代高級干部名單大全,收藏!

      新中國第一代高級干部名單大全,收藏!

      霹靂炮
      2025-09-13 22:02:41
      生肖雞跟誰一起最窮,生肖雞最不合財的生肖

      生肖雞跟誰一起最窮,生肖雞最不合財的生肖

      西瓜愛吃呱呱呱
      2026-01-23 23:06:16
      挑唆上了,“別天真,得給中國劃紅線”

      挑唆上了,“別天真,得給中國劃紅線”

      觀察者網
      2026-01-24 21:48:28
      iPhone Air天貓店降價2000元:國補后5499元起,限量1.3萬臺

      iPhone Air天貓店降價2000元:國補后5499元起,限量1.3萬臺

      識礁Farsight
      2026-01-24 00:03:12
      1996年, 施瓦辛格在家中無事,和35歲200斤女傭發生不當關系

      1996年, 施瓦辛格在家中無事,和35歲200斤女傭發生不當關系

      南權先生
      2026-01-20 15:49:53
      越來越多的施工單位發不出工資了!

      越來越多的施工單位發不出工資了!

      黯泉
      2026-01-24 21:36:43
      20元香煙四強同臺競技!哪款才是煙民心中的 “口糧之王”?

      20元香煙四強同臺競技!哪款才是煙民心中的 “口糧之王”?

      復轉這些年
      2026-01-22 23:45:26
      2026-01-25 02:11:00
      雷峰網 incentive-icons
      雷峰網
      關注智能與未來!
      68407文章數 656059關注度
      往期回顧 全部

      科技要聞

      黃仁勛現身上海菜市場

      頭條要聞

      張又俠、劉振立被查 解放軍報發布社論

      頭條要聞

      張又俠、劉振立被查 解放軍報發布社論

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現身馬年春晚

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      游戲
      健康
      房產
      旅游
      公開課

      夢幻西游珍寶閣拿下新出第一化生神衣,毅力帝300萬幫貢求超越?

      耳石脫落為何讓人天旋地轉+惡心?

      房產要聞

      正式官宣!三亞又一所名校要來了!

      旅游要聞

      2026重慶園博園大型水上燈會沖刺布展,新春光影盛宴即將啟幕!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲成人色| 性一交一乱一乱一视频| 屁屁影院国产第一页| 国产精品热久久毛片| 午夜美女裸体福利视频| 国产 在线视频无码| 精品国产一区二区三区香蕉 | 国产亚洲精品久久77777| 久久婷婷综合色丁香五月| 美女网站免费| 国产口爆吞精在线视频| av在线无码| 丁香花电影| 日本黄页网站免费观看| 日韩精品欧美国产在线| 国产裸体舞一区二区三区| 漳浦县| 亚洲综合色丁香婷婷六月图片 | 麻豆国产原创视频在线播放| 日韩亚洲国产综合高清| 乱码AV麻豆丝袜熟女系列| 日本高清不卡aⅴ免费网站| 长治县| 色偷偷亚洲男人的天堂| 91瑟瑟| 丰满熟妇人妻中文字幕| 婷婷五月AV| 亚洲欧美精品狠狠干| 自拍偷拍亚洲| 青春草在线观看播放网站| 国产精品天堂蜜av在线播放| 免费观看国产小粉嫩喷水精品午.| 国产在线精品一区二区不卡麻豆| 超级碰碰色偷偷免费视频| 亚洲无人区码一码二码三码的含义| 石台县| 亚洲香蕉视频天天爽| 绥德县| 欧美大屁股xxxx高跟欧美黑人| 亚洲黄色片| 丰满熟妇人妻中文字幕|