<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      拒絕“熵崩塌”和“熵爆炸”!這項研究讓大模型推理成績飆升

      0
      分享至

      大語言模型在RLVR訓練中面臨的“熵困境”,有解了!

      2024年以來,以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等為代表的大模型,在數學、代碼和科學推理任務上取得了顯著突破。這些進展很大程度上得益于一種名為RLVR (基于可驗證獎勵的強化學習)的方法。

      該方法通過數學驗證、單元測試等可自動判斷對錯的方式提供訓練信號,替代了傳統依賴人類評判的流程,使模型能夠進行大規模、高效率的自我改進。

      然而,RLVR在實踐中始終面臨“探索機制極易失衡”這一關鍵瓶頸——要么探索受限,陷入熵崩塌;要么探索失控,引發熵爆炸。

      為突破這一瓶頸,來自上海人工智能實驗室和復旦大學等機構的研究團隊提出選擇性熵正則化方法(SIREN),通過劃定探索范圍、聚焦關鍵決策、穩定訓練過程的三重機制,實現了對探索行為的精準調控。

      實驗證明,該方法不僅在多項數學推理基準上取得了顯著性能提升,更重要的是,它讓模型的探索過程變得更加高效與可控。



      下面詳細來看——

      核心困境:探索的“兩難陷阱”

      在RLVR訓練中,研究人員期望模型能夠持續探索多樣化的解題路徑,以避免過早陷入局部最優。

      一個自然的想法是:引入熵正則化(entropy regularization)。

      這是強化學習中鼓勵探索的經典手段。其核心思想很簡單:在優化目標中加入一項,鼓勵模型在每一步生成時保持一定的“不確定性”,不要過早把概率全壓在少數幾個詞上。

      具體來說,就是計算每一步輸出分布的熵(衡量“混亂程度”),再把整條推理軌跡的平均熵加到訓練目標里,用一個系數控制探索強度。

      以下公式分別為:熵的計算公式及熵正則的優化目標。





      然而,這一策略在大型推理模型(LRM)的復雜場景下卻極易走向兩個極端:

      • 探索受限(熵崩塌)

      當太小,熵項幾乎不起作用,模型迅速退化為近似確定性策略。平均熵迅速收斂,即發生熵崩塌。幾輪訓練后,所有回答都高度相似,陷入“舒適區”。這種熵崩塌現象不僅扼殺了模型的多樣性,也使其推理能力在訓練早期就觸及天花板,無法充分釋放潛力。

      • 探索失控(熵爆炸)

      反之,當稍大,模型便極易在龐大的動作空間(數十萬個token)與超長的推理軌跡(上千步生成)中失控。根據熵的定義,當概率分布越“平”,熵就越高。而在如此龐大的詞表中,哪怕只把一點點概率質量從高義詞(如“因此”)挪到無意義詞(如“<”“#@$%”),也能帶來顯著的熵增。

      更糟的是,在自回歸生成中,這種不確定性會沿著軌跡逐步累積——早期幾步的微小混亂,會迅速放大為整條推理鏈的失控。最終使得模型為了“拉高熵”,在每個位置、對每個token都分配一點概率,導致生成內容充斥無意義符號,邏輯斷裂、語義崩壞——這就是典型的熵爆炸(entropy explosion)。

      傳統方法會失效的根本原因在于:熵正則化的激勵是“無差別”的——它假設所有token、所有位置都同等值得探索。但LRM的生成過程具有鮮明的結構性:

      • 在每個生成步驟上,僅有概率排名靠前的少數token具備語義合理性,其余絕大多數token概率趨近于零且無實際意義;
      • 在整個生成序列中,僅有少數承擔邏輯樞紐作用的關鍵詞(如邏輯連接詞、變量名、結論引導詞)真正影響推理走向,而大量用于句法填充的常規詞則應保持高確定性,以維持推理連貫性。

      正因忽略了這種“探索價值的非均勻分布”,傳統熵正則化不僅難以有效引導探索,反而容易引發訓練不穩定,甚至背離提升推理能力的初衷。

      下圖表明,訓練前模型的概率分布高度集中,且只有少量位置在邏輯上關鍵,值得探索;過度探索后概率被攤薄,生成內容混亂。



      破局之道:為探索裝上“精準導航”

      針對傳統方法的不足,研究人員提出選擇性熵正則化方法(SIREN),通過結構化約束實現探索過程的精細調控。SIREN包含三個核心機制:

      1、劃定探索范圍(Top-p掩碼, Top-P Mask)

      在每個生成步驟中,將熵的計算范圍嚴格限定于概率最高的核心token集合,確保探索僅在語義合理的候選詞中進行,避免無效探索。

      2、識別關鍵決策點(峰值熵掩碼,Peak-entropy Mask)

      自動識別生成序列中熵值顯著高于平均水平的邏輯關鍵詞(如推理連接詞、假設引導詞等),并將探索激勵集中作用于這些關鍵位置。

      3、穩定訓練過程(自錨定正則化, Self-anchored Regularization)

      將熵值目標從最大化調整為維持合理區間,通過動態錨定機制使探索強度始終處于可控范圍,避免訓練失穩。

      這一方法首次在RLVR框架中實現了對探索范圍、位置和強度的三重精準控制,為大規模推理模型的穩定訓練提供了可靠解決方案。

      下圖為SIREN的方法流程:



      實驗驗證:有效探索促進性能提升

      實驗結果顯示,SIREN在不同模型和數據集上均取得顯著提升。

      以下為SIREN在Qwen2.5-Math-7B上的實驗結果:



      以及SIREN在其他基座模型上的實驗結果:



      上述結果表明:

      • 在Qwen2.5-Math-7B上,SIREN平均maj@k達54.6%,超越最強基線4.8%
      • 在最具挑戰的AIME24/25上,提升均達6.6%
      • 在1.5B到8B不同規模、不同基座的模型上均穩定有效。

      那么,這些性能提升從何而來?

      分析表明,這正是有效探索帶來的根本性改變。與傳統的熵正則方法相比,SIREN展現出更合理有效的探索模式。

      下圖中,SIREN展現出較高的pass@k,探索邊界顯著擴展:



      還能避免困惑度坍縮,SIREN將答案多樣性保持良好:



      下圖表明,先加大探索再緩慢收斂,訓練過程平穩可控:



      小結

      這項研究致力于解決大語言模型在RLVR訓練中面臨的策略探索難題

      通過系統的實證分析,研究人員發現傳統的探索機制在大規模動作空間和長序列生成中極易失衡,導致模型陷入熵崩塌和熵爆炸的困境。

      為突破這一瓶頸,團隊提出了選擇性熵正則化方法(SIREN),通過劃定探索范圍、聚焦關鍵決策、穩定訓練過程的三重機制,實現了對探索行為的精準調控。實驗證明,該方法不僅在多項數學推理基準上取得了顯著性能提升,更重要的是,它讓模型的探索過程變得更加高效與可控。

      團隊表示,展望未來,隨著強化學習成為大模型后訓練的主流方法,如何實現穩定、可控、高效的探索,將成為釋放大模型潛力、突破性能瓶頸的核心議題。該研究提出的選擇性探索調控機制,為探索的精細化提供了一種可行的解決方案。

      團隊期待這項工作能為下一代推理模型的訓練范式提供啟發,推動大模型在數學、代碼、科學推理等復雜任務以及其他更廣闊的應用領域走得更遠。

      論文鏈接:https://arxiv.org/abs/2509.25133
      項目主頁:https://github.com/Linn3a/siren

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國補后3999元起!史上最便宜iPhone悄悄上架 連發布會都直接省了

      國補后3999元起!史上最便宜iPhone悄悄上架 連發布會都直接省了

      小柱解說游戲
      2026-01-24 02:11:35
      拒掛國旗、訂單全給日韓,被停止合作封鎖航線的長榮,今咎由自取

      拒掛國旗、訂單全給日韓,被停止合作封鎖航線的長榮,今咎由自取

      近史談
      2026-01-21 20:33:15
      21-15,24-22!陳雨菲KO手下敗將,2026年首進決賽,打破冠軍荒?

      21-15,24-22!陳雨菲KO手下敗將,2026年首進決賽,打破冠軍荒?

      劉姚堯的文字城堡
      2026-01-24 14:43:42
      不藏著了!16架運20抵達伊朗:就為打勝仗,不給美軍留下取勝機會

      不藏著了!16架運20抵達伊朗:就為打勝仗,不給美軍留下取勝機會

      近史閣
      2026-01-22 16:38:43
      竇靖童:我媽錢多到用不完,但窮苦潦倒的爸爸,成了我如今的心病

      竇靖童:我媽錢多到用不完,但窮苦潦倒的爸爸,成了我如今的心病

      璀璨幻行者
      2026-01-20 04:29:30
      最近很火的七年低息買車,原來有這么多套路。。。

      最近很火的七年低息買車,原來有這么多套路。。。

      差評XPIN
      2026-01-24 00:05:35
      曝2026央視春晚彩排!看完到場明星,網友哭了:今年的電費又省了

      曝2026央視春晚彩排!看完到場明星,網友哭了:今年的電費又省了

      小熊侃史
      2026-01-22 07:40:06
      Shams:無論詹姆斯賽季后退役還是換隊,他的湖人生涯已接近結束

      Shams:無論詹姆斯賽季后退役還是換隊,他的湖人生涯已接近結束

      懂球帝
      2026-01-24 08:55:05
      日本的速度太快了

      日本的速度太快了

      寰宇大觀察
      2026-01-23 18:50:03
      19國加入,1國被趕出“和平委員會”,特朗普怒發80條帖子

      19國加入,1國被趕出“和平委員會”,特朗普怒發80條帖子

      兵國大事
      2026-01-23 17:44:37
      中國原則同意放行英偉達H200芯片 通知阿里巴巴等科技企業準備訂單

      中國原則同意放行英偉達H200芯片 通知阿里巴巴等科技企業準備訂單

      cnBeta.COM
      2026-01-23 23:18:12
      《人民日報》:70%的病跟情緒有關!很多人被親人給慢性折磨死的

      《人民日報》:70%的病跟情緒有關!很多人被親人給慢性折磨死的

      詩詞中國
      2026-01-23 18:47:36
      中菲海警開展聯合搜救

      中菲海警開展聯合搜救

      澎湃新聞
      2026-01-24 01:25:03
      淚目了!大家斷崖式衰老都在多少歲?說出來讓我心里平衡下

      淚目了!大家斷崖式衰老都在多少歲?說出來讓我心里平衡下

      另子維愛讀史
      2025-12-29 18:05:03
      涉嫌嚴重違紀違法,李國鋒被查

      涉嫌嚴重違紀違法,李國鋒被查

      都市快報橙柿互動
      2026-01-23 20:57:55
      這場面20年都沒見過!美元血崩,美聯儲做夢都沒想到敗得這么快

      這場面20年都沒見過!美元血崩,美聯儲做夢都沒想到敗得這么快

      戶外釣魚哥阿旱
      2026-01-24 15:57:48
      熱身賽:國足2-2戰平莫斯科斯巴達,朱鵬宇、林良銘分別破門

      熱身賽:國足2-2戰平莫斯科斯巴達,朱鵬宇、林良銘分別破門

      懂球帝
      2026-01-24 12:26:15
      國家發改委署名文章釋放重磅信號,收入分配制度改革或將迎來重大突破!

      國家發改委署名文章釋放重磅信號,收入分配制度改革或將迎來重大突破!

      識局Insight
      2026-01-24 15:04:32
      新華社記者直擊伊朗最新局勢

      新華社記者直擊伊朗最新局勢

      新華社
      2026-01-24 17:45:55
      很多地方,已經開始不折騰了

      很多地方,已經開始不折騰了

      詩詞中國
      2026-01-23 19:01:10
      2026-01-24 18:43:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12056文章數 176363關注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      胖東來金飾每克便宜200元被搶爆 有人拖著行李箱去買

      頭條要聞

      胖東來金飾每克便宜200元被搶爆 有人拖著行李箱去買

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      李微漪更新:狼王格林去世,3字淚目

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      親子
      藝術
      教育
      時尚
      健康

      親子要聞

      親愛滴告訴你,我有許多小淘氣

      藝術要聞

      400億!恒大“東方威尼斯”,10萬人瘋搶到無人問津!徹底涼了?

      教育要聞

      谷歌Gemini變身免費家教? 谷歌Gemini上線免費SAT全真AI模考,考完即時反饋并生成專屬學...

      不一定能掀桌男主,但一定是個好演員!

      耳石脫落為何讓人天旋地轉+惡心?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 各种姿势玩小处雏女视频| 稷山县| 中国一区二区三区| 日本亚洲色大成网站www久久| 中文字幕一区二区三区乱码| 中国少妇内射xxxhd| 精品久久久久久无码国产| 欧美黑人又粗又大久久久| 亚洲二页| 人妻人人澡人人添人人爽国产一区| 五月天天天综合精品无码| 97人人超碰国产精品最新| 久久男人av资源网站无码软件| 爆乳熟妇一区二区三区| 久久久亚洲欧洲日产国码二区| A在线视频| 国产成人啪精品视频免费软件| 色77777| 美女大bxxxxn内射| 精品熟女少妇免费久久| 偷拍精品一区二区三区| 国产精品自在欧美一区| 国产AV一区二区三区| 亚洲 自拍 另类 欧美 综合| 浙江省| 日韩亚洲国产中文字幕欧美| 中文字幕乱码亚洲中文在线| jiZZjiZZ少妇高潮喷水| 亚洲制服另类无码专区| 天美传媒mv免费观看完整| 亚洲一区二区约美女探花 | 色琪琪丁香婷婷综合久久| 久久无码一区二区三区| JIZZJIZZJIZZ亚洲日本| 口爆人妻| 五月天综合网亚洲综合天堂网| 九九热精品免费视频| 18禁裸乳无遮挡啪啪无码免费| 亚洲精品国偷拍自产在线观看蜜臀 | 99精品国产兔费观看久久99| 日本免费人成视频在线观看|