<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ICLR 2026|UIUC:一行代碼徹底解決LLM推理的過度思考!

      0
      分享至



      2025 年 1 月 20 日,DeepSeek 發布了推理大模型 DeepSeek-R1,在學術界和工業界引發了對大模型強化學習方法的廣泛關注與研究熱潮。

      研究者發現,在數學推理等具有明確答案的任務中,僅使用 “正確 / 錯誤” 這樣極為簡單的反饋信號進行強化學習,模型就能夠逐步學習到復雜而有效的推理策略,并顯著提升推理能力。這類方法被概括為基于可驗證獎勵的強化學習(RLVR)。

      在隨后的一年中,RLVR 被成功應用到多種任務和應用場景中,展現出穩定且優異的性能,成為大模型推理能力提升的重要技術路線之一。

      然而,盡管 RLVR 取得了顯著成效,它仍然存在一些不可忽視的局限性。其中影響較為突出的問題之一是 “過度思考” 現象:對于本身較為簡單或直觀的問題,模型有時仍會生成冗長、重復甚至不必要的推理過程。這種現象不僅降低了推理效率,也在一定程度上增加了推理成本,成為當前 RLVR 方法亟需解決的關鍵挑戰之一。



      許多研究者逐漸形成共識,認為過度思考現象的根源在于可驗證獎勵信號本身的粗粒度特性。在 RLVR 框架下,只要模型最終給出了正確答案,獎勵機制并不會對其推理過程中的中間步驟加以區分或約束。

      因而,從用戶視角看似多余甚至無意義的 “反復檢查” 行為,并不會給模型帶來任何負面反饋。在這種獎勵結構下,延長推理過程、消耗更多計算步驟,反而成為模型在訓練過程中用以最大化正確率的一種 “理性選擇”。

      針對這一問題,現有研究中較為常見的解決思路是對模型施加顯式的推理長度約束,例如統計模型在推理過程中生成的總 token 數,并在 token 數過大或相對過長時對其獎勵進行懲罰。

      然而,這類方法往往不可避免地削弱模型的推理充分性,從而導致整體準確率下降,使研究者不得不在推理效率與預測準確性之間進行權衡。

      為解決這一問題,伊利諾伊大學香檳分校和 Amazon AWS 的研究者提出了自我一致性獎勵(Self-Aligned Reward,SAR),利用大語言模型內部的信號構成反饋獎勵,刻畫推理過程的 “有用與否” 而不僅僅是 “長短”,達成推理準確度和效率的 “雙贏 “。



      • 論文標題:Self-Aligned Reward: Towards Effective and Efficient Reasoners
      • 論文鏈接:https://arxiv.org/pdf/2509.05489
      • 代碼鏈接:https://github.com/amazon-science/Self-Aligned-Reward-Towards_Effective_and_Efficient_Reasoners

      Self-Aligned Reward 的設計



      在推理任務中,一個理想的獎勵函數應當具備若干關鍵性質。

      首先,作為對可驗證獎勵的有效補充,它應當是連續的,能夠以細粒度方式刻畫模型輸出質量的差異,而非僅給出二值反饋。

      其次,該獎勵函數應盡量避免引入額外復雜的評估框架或獨立的獎勵模型,以降低實現與訓練成本。

      最后,它應能夠直接作用于推理過程中的語義信息,而不是像長度懲罰那樣僅依賴于 token 數等統計量,從而更準確地反映推理內容本身的有效性與相關性。

      基于上述考慮,本文提出了一種新的獎勵函數 ——Self-Aligned Reward(SAR),其設計天然滿足上述優良性質。

      SAR 的計算方式如下:



      SAR 的核心思想基于大模型對自身生成內容的困惑度(perplexity,PPL)。具體而言,SAR 比較了模型在兩種條件下對同一輸出文本的困惑度差異:一是將輸出視為一段獨立文本進行建模,二是在給定輸入問題作為上下文的條件下對該輸出進行建模。由此,SAR 實際衡量的是:當去除輸入問題這一上下文后,模型生成該回答的概率下降了多少。

      這一設計具有直觀而合理的語義解釋。如果某個回答與輸入問題高度相關、針對性強,那么只有在問題作為上下文時,該回答才會以較高概率被生成;一旦脫離問題語境,其生成概率將顯著降低。

      相反,對于內容較為寬泛、與問題關聯較弱的回答,是否提供問題作為上下文對其生成概率的影響則相對有限。

      因此,SAR 能夠有效區分回答與問題之間的語義關聯強度,從而在獎勵層面鼓勵模型生成和問題相關性高、一致性強且語義聚焦的推理結果。



      我們在預實驗中比較了不同獎勵函數在六類回答上的優勢(advantage)值(表中 o1 和 ER 是兩種長度懲罰算法)。可以看到 SAR 有如下特性,這說明了 SAR 能準確、細粒度地分辨不同類型的回答:

      • 比起冗長的正確答案,更偏好正確而簡潔的答案
      • 對于答案錯誤但中間過程部分正確的答案給出相對高的分數
      • 不鼓勵無推理過程直接輸出的答案,即使答案是正確的

      實驗分析:強效普適的推理助手

      本文在 4 個基礎模型和 7 個數據集上進行了系統而全面的實驗評估。

      在訓練過程中,我們將 Self-Aligned Reward(SAR)與可驗證獎勵按照不同比例進行加權,共同作為強化學習的獎勵信號。實驗結果表明,SAR 具有良好的通用性,能夠無縫應用于 PPO、GRPO 等主流強化學習算法,并在準確度與推理效率兩個維度上同時帶來顯著提升。

      總體而言,相較于僅使用 RLVR 的基線方法,引入 SAR 后模型準確率平均提升約 4%,同時生成輸出的平均長度至少減少 30%。值得注意的是,盡管訓練階段僅使用了數學領域的數據集,SAR 在邏輯推理等非數學任務的數據集上同樣表現出穩定而優異的性能,體現了其良好的跨任務泛化能力。

      為了進一步分析 SAR 在準確度與效率之間的權衡特性,我們分別對 SAR 和長度懲罰方法在訓練過程中施加不同的獎勵權重,從而得到一系列具有不同行為特征的推理模型。



      實驗中固定可驗證獎勵的權重為 1,圖中標注的數值對應 SAR 或長度懲罰項的權重大小。結果顯示,SAR 所對應的性能曲線在整個權重區間內始終優于長度懲罰與基線方法,且其中一部分穩定落在準確度與效率同時提升的第一象限。

      這表明,相較于單純通過懲罰輸出長度來壓縮推理過程、從而不可避免地犧牲準確率的策略,SAR 能夠更有效地協調推理質量與推理成本,在兩者之間實現更優的平衡。

      結語:“傾聽自我 “--- 強化學習的新路徑

      本研究提出了 Self-aligned reward,為緩解強化學習推理模型中的過度思考問題提供了一種簡單而有效的解決思路。與依賴人工設計規則或顯式約束推理長度的方法不同,SAR 直接利用大模型自身的語言建模能力,從語義層面刻畫回答與問題之間的內在一致性,在不引入額外評估模型的前提下,實現了對推理質量與效率的協同優化。

      這一全新的獎勵函數不僅提升了當前推理模型在準確度與計算成本這兩個維度的整體表現,也反映了大模型強化學習領域一種新的思想:將模型運行時的的內在信息轉化為可用于學習的連續反饋信號,從而實現大規模,可持續,甚至 “自我進化 “式的訓練。我們認為,Self-aligned reward 作為一種簡潔,高效,泛用性強的強化學習方法,有望被推廣至更廣泛的推理任務中,進一步推動高效、可靠的大模型推理系統的發展。

      作者簡介

      本文第一作者為韓沛煊,本科畢業于清華大學計算機系,現為伊利諾伊大學香檳分校(UIUC)計算與數據科學學院二年級博士生,導師為 Jiaxuan You 教授。其主要研究方向為:大語言模型社會智力及其在復雜場景中的推理。本工作為作者在 Amazon AWS 實習期間的成果。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      放進冰箱變毒藥,這7種食物千萬不能放在冰箱里!尤其是第六種!

      放進冰箱變毒藥,這7種食物千萬不能放在冰箱里!尤其是第六種!

      路醫生健康科普
      2026-02-06 16:16:28
      原來世界上真的有長得很標準的東西!網友:白色的云越看越紅!

      原來世界上真的有長得很標準的東西!網友:白色的云越看越紅!

      夜深愛雜談
      2026-02-02 18:29:01
      記者:替補或是哲凱賴什在本季剩余比賽發揮最大作用的方式

      記者:替補或是哲凱賴什在本季剩余比賽發揮最大作用的方式

      順靜自然
      2026-02-09 13:22:37
      成都亞冠試新陣,韋林頓+韋世豪兩翼齊飛 索羅金首秀 4外援可出戰

      成都亞冠試新陣,韋林頓+韋世豪兩翼齊飛 索羅金首秀 4外援可出戰

      替補席看球
      2026-02-09 12:56:08
      這是毛主席和賀子珍6張合影,2張和井岡山有關,賀子珍站在角落里

      這是毛主席和賀子珍6張合影,2張和井岡山有關,賀子珍站在角落里

      芊芊子吟
      2026-02-08 20:25:06
      86年我給一個女犯人送飯,她偷偷塞給我一張紙條:救我,我是臥底

      86年我給一個女犯人送飯,她偷偷塞給我一張紙條:救我,我是臥底

      千秋文化
      2026-01-20 20:48:49
      巴拿馬求錘得錘,中方第五波反制出手,總領事被召見,巴總統改口

      巴拿馬求錘得錘,中方第五波反制出手,總領事被召見,巴總統改口

      藍色海邊
      2026-02-09 00:02:29
      評論員:C羅要認清自己,要是沒沙特引路他500年也進不去白宮

      評論員:C羅要認清自己,要是沒沙特引路他500年也進不去白宮

      懂球帝
      2026-02-08 09:48:08
      未來兩周財運起飛!這3個生肖“錢”途無量,人生開掛!

      未來兩周財運起飛!這3個生肖“錢”途無量,人生開掛!

      毅談生肖
      2026-02-09 11:57:06
      中交建筑集團總經理突然離職

      中交建筑集團總經理突然離職

      地產微資訊
      2026-02-09 13:42:28
      13場未進球,阿斯:沃爾特馬德下滑速度和當初的爆發一樣迅猛

      13場未進球,阿斯:沃爾特馬德下滑速度和當初的爆發一樣迅猛

      懂球帝
      2026-02-08 18:47:30
      馬里寧技驚四座,美國隊力壓日本隊奪花滑團體金牌

      馬里寧技驚四座,美國隊力壓日本隊奪花滑團體金牌

      澎湃新聞
      2026-02-09 10:19:29
      這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

      這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

      蜉蝣說
      2026-01-29 14:46:50
      突然!越南河內開啟“鐵腕”模式!外國人住一晚沒登記,罰款直接飆到5000+人民幣!

      突然!越南河內開啟“鐵腕”模式!外國人住一晚沒登記,罰款直接飆到5000+人民幣!

      越南語學習平臺
      2026-02-08 09:33:50
      年薪30萬男友因工資卡分手,婚姻最毒的算計是“我要全部掌控”

      年薪30萬男友因工資卡分手,婚姻最毒的算計是“我要全部掌控”

      戧詞奪理
      2026-02-08 10:55:45
      冰心為什么討厭林徽因?網友:最可恨的是,林的主業還不是文學

      冰心為什么討厭林徽因?網友:最可恨的是,林的主業還不是文學

      夜深愛雜談
      2026-02-05 18:04:39
      阿瑪尼,讓全世界記住意大利國旗

      阿瑪尼,讓全世界記住意大利國旗

      設計癖
      2026-02-07 13:15:28
      世仇大戰!北卡0.4秒三分絕殺杜克,NBA狀元大熱布澤爾無力回天

      世仇大戰!北卡0.4秒三分絕殺杜克,NBA狀元大熱布澤爾無力回天

      體育妞世界
      2026-02-08 20:36:24
      訪華要泡湯?中方嚴厲警告特朗普,想4月來北京,最好別做一件事

      訪華要泡湯?中方嚴厲警告特朗普,想4月來北京,最好別做一件事

      現代小青青慕慕
      2026-02-08 12:19:03
      揭秘亞洲最窮國:當地女性驚人開放,游客秒變土豪,無不想去定居

      揭秘亞洲最窮國:當地女性驚人開放,游客秒變土豪,無不想去定居

      明天后天大后天
      2026-02-07 11:10:14
      2026-02-09 14:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12275文章數 142564關注度
      往期回顧 全部

      科技要聞

      熱血漸涼:被耗盡的小米SU7 Ultra

      頭條要聞

      男子在小區周邊投毒致10只寵物狗死亡 獲刑1年10個月

      頭條要聞

      男子在小區周邊投毒致10只寵物狗死亡 獲刑1年10個月

      體育要聞

      創中國冬奧最佳戰績!19歲速滑新星含淚向天拉勾

      娛樂要聞

      李亞鵬暫停直播:將投入嫣然醫院工作

      財經要聞

      文玩假拍騙局調查:3500元瓷瓶估值300萬

      汽車要聞

      長安將搭鈉電池 好比汽車要裝柴油機?

      態度原創

      旅游
      本地
      手機
      公開課
      軍事航空

      旅游要聞

      免票!半價!河南多家景區官宣春節門票優惠政策

      本地新聞

      圍觀了北京第一屆黑色羽絨服大賽,我笑瘋了

      手機要聞

      彭博社爆料蘋果新品規劃:iOS 26.4將內測、iPhone 17e下月發布

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美伊最敏感時刻 林肯號航母迎來三位“不速之客”

      無障礙瀏覽 進入關懷版