![]()
2025 年 1 月 20 日,DeepSeek 發布了推理大模型 DeepSeek-R1,在學術界和工業界引發了對大模型強化學習方法的廣泛關注與研究熱潮。
研究者發現,在數學推理等具有明確答案的任務中,僅使用 “正確 / 錯誤” 這樣極為簡單的反饋信號進行強化學習,模型就能夠逐步學習到復雜而有效的推理策略,并顯著提升推理能力。這類方法被概括為基于可驗證獎勵的強化學習(RLVR)。
在隨后的一年中,RLVR 被成功應用到多種任務和應用場景中,展現出穩定且優異的性能,成為大模型推理能力提升的重要技術路線之一。
然而,盡管 RLVR 取得了顯著成效,它仍然存在一些不可忽視的局限性。其中影響較為突出的問題之一是 “過度思考” 現象:對于本身較為簡單或直觀的問題,模型有時仍會生成冗長、重復甚至不必要的推理過程。這種現象不僅降低了推理效率,也在一定程度上增加了推理成本,成為當前 RLVR 方法亟需解決的關鍵挑戰之一。
![]()
許多研究者逐漸形成共識,認為過度思考現象的根源在于可驗證獎勵信號本身的粗粒度特性。在 RLVR 框架下,只要模型最終給出了正確答案,獎勵機制并不會對其推理過程中的中間步驟加以區分或約束。
因而,從用戶視角看似多余甚至無意義的 “反復檢查” 行為,并不會給模型帶來任何負面反饋。在這種獎勵結構下,延長推理過程、消耗更多計算步驟,反而成為模型在訓練過程中用以最大化正確率的一種 “理性選擇”。
針對這一問題,現有研究中較為常見的解決思路是對模型施加顯式的推理長度約束,例如統計模型在推理過程中生成的總 token 數,并在 token 數過大或相對過長時對其獎勵進行懲罰。
然而,這類方法往往不可避免地削弱模型的推理充分性,從而導致整體準確率下降,使研究者不得不在推理效率與預測準確性之間進行權衡。
為解決這一問題,伊利諾伊大學香檳分校和 Amazon AWS 的研究者提出了自我一致性獎勵(Self-Aligned Reward,SAR),利用大語言模型內部的信號構成反饋獎勵,刻畫推理過程的 “有用與否” 而不僅僅是 “長短”,達成推理準確度和效率的 “雙贏 “。
![]()
- 論文標題:Self-Aligned Reward: Towards Effective and Efficient Reasoners
- 論文鏈接:https://arxiv.org/pdf/2509.05489
- 代碼鏈接:https://github.com/amazon-science/Self-Aligned-Reward-Towards_Effective_and_Efficient_Reasoners
Self-Aligned Reward 的設計
![]()
在推理任務中,一個理想的獎勵函數應當具備若干關鍵性質。
首先,作為對可驗證獎勵的有效補充,它應當是連續的,能夠以細粒度方式刻畫模型輸出質量的差異,而非僅給出二值反饋。
其次,該獎勵函數應盡量避免引入額外復雜的評估框架或獨立的獎勵模型,以降低實現與訓練成本。
最后,它應能夠直接作用于推理過程中的語義信息,而不是像長度懲罰那樣僅依賴于 token 數等統計量,從而更準確地反映推理內容本身的有效性與相關性。
基于上述考慮,本文提出了一種新的獎勵函數 ——Self-Aligned Reward(SAR),其設計天然滿足上述優良性質。
SAR 的計算方式如下:
![]()
SAR 的核心思想基于大模型對自身生成內容的困惑度(perplexity,PPL)。具體而言,SAR 比較了模型在兩種條件下對同一輸出文本的困惑度差異:一是將輸出視為一段獨立文本進行建模,二是在給定輸入問題作為上下文的條件下對該輸出進行建模。由此,SAR 實際衡量的是:當去除輸入問題這一上下文后,模型生成該回答的概率下降了多少。
這一設計具有直觀而合理的語義解釋。如果某個回答與輸入問題高度相關、針對性強,那么只有在問題作為上下文時,該回答才會以較高概率被生成;一旦脫離問題語境,其生成概率將顯著降低。
相反,對于內容較為寬泛、與問題關聯較弱的回答,是否提供問題作為上下文對其生成概率的影響則相對有限。
因此,SAR 能夠有效區分回答與問題之間的語義關聯強度,從而在獎勵層面鼓勵模型生成和問題相關性高、一致性強且語義聚焦的推理結果。
![]()
我們在預實驗中比較了不同獎勵函數在六類回答上的優勢(advantage)值(表中 o1 和 ER 是兩種長度懲罰算法)。可以看到 SAR 有如下特性,這說明了 SAR 能準確、細粒度地分辨不同類型的回答:
- 比起冗長的正確答案,更偏好正確而簡潔的答案
- 對于答案錯誤但中間過程部分正確的答案給出相對高的分數
- 不鼓勵無推理過程直接輸出的答案,即使答案是正確的
實驗分析:強效普適的推理助手
本文在 4 個基礎模型和 7 個數據集上進行了系統而全面的實驗評估。
在訓練過程中,我們將 Self-Aligned Reward(SAR)與可驗證獎勵按照不同比例進行加權,共同作為強化學習的獎勵信號。實驗結果表明,SAR 具有良好的通用性,能夠無縫應用于 PPO、GRPO 等主流強化學習算法,并在準確度與推理效率兩個維度上同時帶來顯著提升。
總體而言,相較于僅使用 RLVR 的基線方法,引入 SAR 后模型準確率平均提升約 4%,同時生成輸出的平均長度至少減少 30%。值得注意的是,盡管訓練階段僅使用了數學領域的數據集,SAR 在邏輯推理等非數學任務的數據集上同樣表現出穩定而優異的性能,體現了其良好的跨任務泛化能力。
為了進一步分析 SAR 在準確度與效率之間的權衡特性,我們分別對 SAR 和長度懲罰方法在訓練過程中施加不同的獎勵權重,從而得到一系列具有不同行為特征的推理模型。
![]()
實驗中固定可驗證獎勵的權重為 1,圖中標注的數值對應 SAR 或長度懲罰項的權重大小。結果顯示,SAR 所對應的性能曲線在整個權重區間內始終優于長度懲罰與基線方法,且其中一部分穩定落在準確度與效率同時提升的第一象限。
這表明,相較于單純通過懲罰輸出長度來壓縮推理過程、從而不可避免地犧牲準確率的策略,SAR 能夠更有效地協調推理質量與推理成本,在兩者之間實現更優的平衡。
結語:“傾聽自我 “--- 強化學習的新路徑
本研究提出了 Self-aligned reward,為緩解強化學習推理模型中的過度思考問題提供了一種簡單而有效的解決思路。與依賴人工設計規則或顯式約束推理長度的方法不同,SAR 直接利用大模型自身的語言建模能力,從語義層面刻畫回答與問題之間的內在一致性,在不引入額外評估模型的前提下,實現了對推理質量與效率的協同優化。
這一全新的獎勵函數不僅提升了當前推理模型在準確度與計算成本這兩個維度的整體表現,也反映了大模型強化學習領域一種新的思想:將模型運行時的的內在信息轉化為可用于學習的連續反饋信號,從而實現大規模,可持續,甚至 “自我進化 “式的訓練。我們認為,Self-aligned reward 作為一種簡潔,高效,泛用性強的強化學習方法,有望被推廣至更廣泛的推理任務中,進一步推動高效、可靠的大模型推理系統的發展。
作者簡介
本文第一作者為韓沛煊,本科畢業于清華大學計算機系,現為伊利諾伊大學香檳分校(UIUC)計算與數據科學學院二年級博士生,導師為 Jiaxuan You 教授。其主要研究方向為:大語言模型社會智力及其在復雜場景中的推理。本工作為作者在 Amazon AWS 實習期間的成果。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.