<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      又一推理新范式:將LLM自身視作改進操作符,突破長思維鏈極限

      0
      分享至



      機器之心報道

      機器之心編輯部

      推理訓練促使大語言模型(LLM)生成長思維鏈(long CoT),這在某些方面有助于它們探索解決策略并進行自我檢查。雖然這種方式提高了準確性,但也增加了上下文長度、token / 計算成本和答案延遲。

      因此,問題來了:當前的模型能否利用其元認知能力,在這一帕累托前沿上提供其他組合策略,例如在降低上下文長度和 / 或延遲的情況下提高準確性?

      帶著這一問題,Meta 超級智能實驗室、倫敦大學學院、Mila、Anthropic 等機構的研究者進行了探索。從抽象層面來看,他們將 LLM 視為其「思維」的改進操作符,實現一系列可能的策略。



      • 論文標題:Rethinking Thinking Tokens: LLMs as Improvement Operators
      • 論文地址:https://arxiv.org/pdf/2510.01123

      研究者探究了一種推理方法家族 ——并行 - 蒸餾 - 精煉(Parallel-Distill-Refine, PDR),該方法包含以下步驟:(i) 并行生成多樣化草稿;(ii) 將其蒸餾成一個有限的文本工作區;(iii) 在此工作區的基礎上進行精煉,生成的輸出將作為下一輪的種子。重要的是,通過調整并行度,PDR 能夠控制上下文長度(從而控制計算成本),并且上下文長度不再與生成 token 的總數混淆。

      根據當前模型在 PDR 實例中的應用,它們在準確性上優于長思維鏈,同時延遲更低。當將并行度設置為 1 時,得到一個特例 ——順序精煉(Sequential Refinement, SR)(即迭代改進單一候選答案),其表現優于長思維鏈(代價是更高的延遲)。

      這種模型組織的成功引申了一個問題:進一步的訓練是否能夠改變帕累托前沿?為此,研究者訓練了一個 8B 規模的思考模型,使用強化學習(RL)使其與 PDR 推理方法保持一致。

      在具有可驗證答案的數學任務中,迭代 pipeline 在匹配的順序預算下超越了單次推理基準,并且 PDR 方法帶來了最大的提升,在 AIME 2024 和 AIME 2025 數學任務中,準確率分別提高了 11% 和 9%。

      LLM 作為改進操作符

      研究者考慮任務 x(例如數學問題),目標是在給定的 token 預算下生成高質量的最終成果 s_final(解答、證明或程序)。設 M_θ 為一個(可以凍結或訓練的)大語言模型(LLM),并作為改進操作符。給定當前的成果 s_t(單次生成或一組生成結果)和緊湊的文本工作區 C_t,模型會提出一個改進方案:



      讀寫壓縮循環。每個步驟:(i) 讀取當前工作區 C_t,(ii) 通過 M_θ 寫出改進后的成果 s_t+1,(iii) 使用綜合操作符 D 將成果壓縮回一個有限的工作區,為下一個步驟做準備。



      token 預算。研究者在以下兩個預算下評估每種方法:



      操作符實例化

      研究者探究了以下兩種短上下文的迭代精煉流程。

      一是順序精煉(SR,單一候選的深度改進)。

      對于所有 t,設置 C_t ≡ ? ,并且迭代改進單一成果進行 R 輪:



      順序精煉與緊湊工作區。在 SR 中,不提供顯式的工作區。研究者還評估了一種變體,在每一輪之間插入錯誤分析步驟:模型不會直接改進之前的答案,而是首先識別并解釋當前解答中的缺陷,然后生成修訂后的解答。這些筆記在每一輪中充當一個暫時的、局部的工作區。

      二是并行 - 蒸餾 - 精煉(PDR,每輪工作區)。

      研究者不保持持久的記憶。相反,對于每一輪 r = 1, . . . , R,基于當前的有限摘要采樣 M_r 個草稿(并行),然后重新綜合(蒸餾)出一個新的有限摘要供下一輪使用:



      在最后一輪強制執行單次生成 M_R = 1,此生成結果作為最終解答 s_final 返回。摘要是按輪次生成且非持久的,早期文本不會被重播,防止了每次調用時上下文的增長。

      另外,研究者考慮了蒸餾操作符 D 的幾種實際實例化方式:

      • 全局摘要
      • 提取性 top-k 證據(共享)
      • random-k / 自舉工作區

      最后是操作符一致性訓練。前文將 M_θ 視為凍結,并純粹依賴于提示 / 調度?,F在,研究者通過在與測試時相同的短上下文迭代接口下優化模型,確保訓練與部署 / 推理的一致性。

      基礎算法。對于基準強化學習(RL),研究者使用來自 Minimax-M1 的 CISPO 目標。對于給定的提示 x,生成器 π(?| θ_old) 使用舊策略 θ_old 生成 G 個回合 {o^G_i=1}。像 sympy 或 math-verify 這樣的自動化檢查器被用來為每個回合分配標量獎勵 r_i(±1)。CISPO 將 GRPO 的組歸一化優勢與 REINFORCE 結合起來,達到以下目標。



      為什么 PDR 訓練時只進行一輪?研究者表示,進行單一的 PDR 回合(包括 M 個早期草稿,蒸餾為 C,以及單次精煉)可以捕捉到關鍵的接口,同時控制 B_total 并穩定強化學習。在推理時,則可以使用相同的操作符運行多個回合(R > 1)。

      本文的數據混合方法在保留長軌跡能力的同時,教會模型在短迭代中進行推理。PDR 被模擬為一次并行→蒸餾→精煉回合,在該過程中,模型觀察 (x, C),并對最終解答軌跡進行可驗證獎勵優化。

      實驗結果

      在預算感知協議下,研究者將順序精煉(SR)和并行 - 蒸餾 - 精煉(PDR)操作符與長思維鏈(CoT)基準進行了比較。他們使用符號驗證器(如 sympy 和 math-verify) 來測量準確性,還將結果報告為順序預算 B_seq(沿著接受路徑的延遲代理)和總預算 B_total(所有調用的 token 數)的函數。

      研究者對 SR 和 PDR 作為推理時操作符應用于數學問題進行了評估。給定一個提示 x,模型生成一個思維軌跡和最終解答。思維跨度由 「...」限定,去除后僅使用自包含的解答作為后續回合輸入的構建。他們在 AIME 2024 和 AIME 2025(AoPS,2025)上進行評估,并報告在 16 次獨立生成中的準確率 - mean@16。

      通過實驗,研究者試圖回答以下四個研究問題:

      • RQ1:短上下文迭代是否能通過比較 {SR, PDR} 與長軌跡 CoT,在匹配的 B_seq 和 B_total 下超越長軌跡?
      • RQ2:通過比較三種 D 變體:全局摘要、提取性 top-k 和 random-k 自舉,找出生成 C^(r) 的最佳蒸餾策略。
      • RQ3:識別給定模型的驗證能力對最終性能的影響。
      • RQ4:操作符一致性訓練是否能夠改變帕累托前沿?他們比較了操作符一致性 + 標準強化學習與標準單軌跡強化學習。

      RQ1:短上下文迭代是否在匹配延遲的情況下超越長軌跡?

      圖 3 和圖 9 報告了在相同有效 token 預算 Bseq 下,AIME 2024 和 AIME 2025 上的準確性。研究者觀察到,從長思維鏈(Long CoT)轉到順序精煉(SR)時,準確性穩定提升;從 SR 到并行 - 蒸餾 - 精煉(PDR)時,這一提升繼續。

      對于 o3-mini,在有效預算為 49k token、每次調用思維預算為 16k token 時,準確性從 76.9(長鏈推理)提升至 81.5(SR)和 86.7(PDR),相較長思維鏈,絕對值提升了 +9.8 個百分比。gemini-2.5-flash 從 SR 到 PDR 的變化小于 o3-mini,表明 gemini-2.5-flash 在自我驗證方面更強。





      RQ2:哪種蒸餾(即摘要)策略效果最佳?

      表 2 研究了在固定輪次(每輪生成次數為 g = [16, 8, 4])和每輪 k = 2 個候選的設置下,PDR 中的蒸餾操作符 D。

      在不同數據集和基礎模型上,樣本級的 top-k 和全局摘要選擇一致性優于共享 top-k 和 random-k,并且隨著思維預算 B 的增加,差距逐漸擴大。

      主要的例外是 AIME 2025 與 o3-mini 的情況,其中全局摘要優于其他方法。研究者推測,o3-mini 的摘要特別擅長從正確和錯誤的草稿中捕捉線索,而這些線索在蒸餾后會促使更強的后續精煉。



      RQ3:驗證能力如何影響推理時間性能?

      從圖 6 和圖 8 中,研究者觀察到注入錯誤候選(Oracle (Incorrect))會導致所有模型的性能大幅下降。對于 o3-mini,性能下降顯著大于 gemini-2.5-flash,這表明后者具有更強的自我驗證和恢復能力。這一趨勢在 AIME 2024 和 AIME 2025 中都得到了體現。





      RQ4:操作符一致性訓練是否推動了帕累托前沿的移動?

      表 3 總結了主要結果。從每個強化學習(RL)目標得到的模型分別在長思維鏈(Long CoT)生成和 PDR 上進行了評估。PDR 強化學習相比基準方法在 AIME 2024 上提升了 +3.34 個百分點,在 AIME 2025 上提升了 +1.67 個百分點。

      從基準 RL 檢查點開始的持續更新,使得額外的 PDR 強化學習帶來了更大的提升,分別在 AIME 2024 和 AIME 2025 上提升了 +5.00 和 +4.59 個百分點。此外,研究者還觀察到,在 PDR RL 訓練下,長思維鏈生成也有一定的增益。

      這些結果表明,使用操作符一致性的強化學習目標進行訓練減少了訓練與部署之間的不匹配,將額外的計算轉化為準確性,而不會增加每次調用的順序預算。



      更多技術細節和實驗結果請參閱原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬克龍的保鏢都看懵了!早上成都晨跑下午四川大學,現場圍滿了人

      馬克龍的保鏢都看懵了!早上成都晨跑下午四川大學,現場圍滿了人

      樂悠悠娛樂
      2025-12-06 11:51:13
      我們將進入“利率向下,匯率向上”的時代…

      我們將進入“利率向下,匯率向上”的時代…

      米筐投資
      2025-12-08 07:12:32
      血債血償,中國特戰力量現身巴基斯坦,用重裝合成營教俾路支做人

      血債血償,中國特戰力量現身巴基斯坦,用重裝合成營教俾路支做人

      七分瘦三分肥
      2025-04-12 23:26:23
      4換1!打劫式交易!灰熊中鋒點評楊瀚森

      4換1!打劫式交易!灰熊中鋒點評楊瀚森

      籃球實戰寶典
      2025-12-07 22:01:44
      你聽過的野史有多野?網友︰打了十年,只為一珠子?笑死人了

      你聽過的野史有多野?網友︰打了十年,只為一珠子?笑死人了

      另子維愛讀史
      2025-12-07 21:48:49
      國產女模特172高挑身材,火辣身姿,尺度大

      國產女模特172高挑身材,火辣身姿,尺度大

      傲嬌的馬甲線
      2025-12-05 18:15:51
      機關事業單位退休人員,養老金補發14個月,能補發4000元以上嗎?

      機關事業單位退休人員,養老金補發14個月,能補發4000元以上嗎?

      云鵬敘事
      2025-12-08 09:21:40
      當你強了:國際海洋法法庭關于未參與南海仲裁案的澄清聲明

      當你強了:國際海洋法法庭關于未參與南海仲裁案的澄清聲明

      小嵩
      2025-12-07 18:00:40
      萬科!遭遇反對

      萬科!遭遇反對

      新浪財經
      2025-12-07 18:26:31
      跌破1499元,茅臺都賣不動了

      跌破1499元,茅臺都賣不動了

      豹變
      2025-12-08 08:03:25
      2026養老金認證變了?家有老人速看4件關鍵事

      2026養老金認證變了?家有老人速看4件關鍵事

      小影的娛樂
      2025-12-08 06:06:16
      是我低估了這個“甘蔗水”,連喝了2天,整個人都舒服了!

      是我低估了這個“甘蔗水”,連喝了2天,整個人都舒服了!

      江江食研社
      2025-12-01 10:30:08
      約基奇28+9+11超越籃球之神,穆雷34分超新星打鐵,掘金8連斬黃蜂

      約基奇28+9+11超越籃球之神,穆雷34分超新星打鐵,掘金8連斬黃蜂

      釘釘陌上花開
      2025-12-08 09:22:52
      揭陽林家 2 億絕殺帝王綠原石,切石瞬間狂喜,緬甸礦主當場遞礦契

      揭陽林家 2 億絕殺帝王綠原石,切石瞬間狂喜,緬甸礦主當場遞礦契

      白淺娛樂聊
      2025-12-06 11:08:51
      湖人本季關鍵時刻全勝!詹姆斯高效轟29分 LA生涯首次在費城贏球

      湖人本季關鍵時刻全勝!詹姆斯高效轟29分 LA生涯首次在費城贏球

      Emily說個球
      2025-12-08 11:09:47
      武漢街頭慘案警示:“幸福者退讓” 不是軟弱無能,而是不值得

      武漢街頭慘案警示:“幸福者退讓” 不是軟弱無能,而是不值得

      今朝牛馬
      2025-12-05 11:49:41
      工信部出手,電動車“反人類”設計終于要改了?這才是民生溫度!

      工信部出手,電動車“反人類”設計終于要改了?這才是民生溫度!

      今朝牛馬
      2025-12-07 21:04:10
      周濤怒了!“行了可以了,跟你說了很多遍,差不多行了啊”

      周濤怒了!“行了可以了,跟你說了很多遍,差不多行了啊”

      都市快報橙柿互動
      2025-12-07 17:43:27
      楊景媛再次挑釁受害者母親

      楊景媛再次挑釁受害者母親

      紅色少女主播
      2025-12-06 23:08:04
      52歲大媽:旅游時偶遇大學同學,兩人做了錯事,要跟老公坦白嗎?

      52歲大媽:旅游時偶遇大學同學,兩人做了錯事,要跟老公坦白嗎?

      熱心柚子姐姐
      2025-12-07 10:41:40
      2025-12-08 12:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11862文章數 142510關注度
      往期回顧 全部

      科技要聞

      萬億蘋果,正在經歷一場嚴重的“大失血”

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      本地
      旅游
      時尚
      教育
      公開課

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      旅游要聞

      今起,云南這一知名景區恢復開放!

      除了大衣,今年最火的外套一定就是它了!

      教育要聞

      當你的孩子主動給你買東西

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧洲成人一区二区三区| 狼色精品人妻在线视频| xxx日韩| 国产亚洲合集| 99国产精品欧美一区二区三区| 欧美日韩精品一区二区在线播放| 777天堂麻豆爱综合视频| 亚洲老熟女@TubeumTV| 欧美午夜福利| 全免费A级毛片免费看无码| 无码不卡av东京热毛片| 亚洲综合av一区二区三区| 亚洲无av码一区二区三区| √天堂资源网最新版在线| 历史| AV一二三| 亚洲欧美另类在线| 日韩欧美精品一区二区| 97在线碰| 欧美最猛性xxxxx免费| aa中文化产品产二区在线| 人妻va精品va欧美va| 亚洲123| 亚州九九久久| 极品虎白一线天馒头最新消息| 日本一区二区三区在线 |观看| 四虎www永久在线精品| 无码国产精品一区二区免费3p| 精品深夜av无码一区二区| 77777_亚洲午夜久久多人| 苍井空一区二区波多野结衣av | 成年午夜无码av片在线观看| 中文人妻熟妇乱又伦精品| 1区2区3区高清视频| 2018天天拍拍天天爽视频| 男女性杂交内射女bbwxz | 国产成人亚洲日韩欧美| 特黄少妇60分钟在线观看播放| 精品国产网站| 汝阳县| 阿合奇县|