<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      又一推理新范式:將LLM自身視作改進操作符,突破長思維鏈極限

      0
      分享至



      機器之心報道

      機器之心編輯部

      推理訓練促使大語言模型(LLM)生成長思維鏈(long CoT),這在某些方面有助于它們探索解決策略并進行自我檢查。雖然這種方式提高了準確性,但也增加了上下文長度、token / 計算成本和答案延遲。

      因此,問題來了:當前的模型能否利用其元認知能力,在這一帕累托前沿上提供其他組合策略,例如在降低上下文長度和 / 或延遲的情況下提高準確性?

      帶著這一問題,Meta 超級智能實驗室、倫敦大學學院、Mila、Anthropic 等機構的研究者進行了探索。從抽象層面來看,他們將 LLM 視為其「思維」的改進操作符,實現一系列可能的策略。



      • 論文標題:Rethinking Thinking Tokens: LLMs as Improvement Operators
      • 論文地址:https://arxiv.org/pdf/2510.01123

      研究者探究了一種推理方法家族 ——并行 - 蒸餾 - 精煉(Parallel-Distill-Refine, PDR),該方法包含以下步驟:(i) 并行生成多樣化草稿;(ii) 將其蒸餾成一個有限的文本工作區;(iii) 在此工作區的基礎上進行精煉,生成的輸出將作為下一輪的種子。重要的是,通過調整并行度,PDR 能夠控制上下文長度(從而控制計算成本),并且上下文長度不再與生成 token 的總數混淆。

      根據當前模型在 PDR 實例中的應用,它們在準確性上優于長思維鏈,同時延遲更低。當將并行度設置為 1 時,得到一個特例 ——順序精煉(Sequential Refinement, SR)(即迭代改進單一候選答案),其表現優于長思維鏈(代價是更高的延遲)。

      這種模型組織的成功引申了一個問題:進一步的訓練是否能夠改變帕累托前沿?為此,研究者訓練了一個 8B 規模的思考模型,使用強化學習(RL)使其與 PDR 推理方法保持一致。

      在具有可驗證答案的數學任務中,迭代 pipeline 在匹配的順序預算下超越了單次推理基準,并且 PDR 方法帶來了最大的提升,在 AIME 2024 和 AIME 2025 數學任務中,準確率分別提高了 11% 和 9%。

      LLM 作為改進操作符

      研究者考慮任務 x(例如數學問題),目標是在給定的 token 預算下生成高質量的最終成果 s_final(解答、證明或程序)。設 M_θ 為一個(可以凍結或訓練的)大語言模型(LLM),并作為改進操作符。給定當前的成果 s_t(單次生成或一組生成結果)和緊湊的文本工作區 C_t,模型會提出一個改進方案:



      讀寫壓縮循環。每個步驟:(i) 讀取當前工作區 C_t,(ii) 通過 M_θ 寫出改進后的成果 s_t+1,(iii) 使用綜合操作符 D 將成果壓縮回一個有限的工作區,為下一個步驟做準備。



      token 預算。研究者在以下兩個預算下評估每種方法:



      操作符實例化

      研究者探究了以下兩種短上下文的迭代精煉流程。

      一是順序精煉(SR,單一候選的深度改進)。

      對于所有 t,設置 C_t ≡ ? ,并且迭代改進單一成果進行 R 輪:



      順序精煉與緊湊工作區。在 SR 中,不提供顯式的工作區。研究者還評估了一種變體,在每一輪之間插入錯誤分析步驟:模型不會直接改進之前的答案,而是首先識別并解釋當前解答中的缺陷,然后生成修訂后的解答。這些筆記在每一輪中充當一個暫時的、局部的工作區。

      二是并行 - 蒸餾 - 精煉(PDR,每輪工作區)。

      研究者不保持持久的記憶。相反,對于每一輪 r = 1, . . . , R,基于當前的有限摘要采樣 M_r 個草稿(并行),然后重新綜合(蒸餾)出一個新的有限摘要供下一輪使用:



      在最后一輪強制執行單次生成 M_R = 1,此生成結果作為最終解答 s_final 返回。摘要是按輪次生成且非持久的,早期文本不會被重播,防止了每次調用時上下文的增長。

      另外,研究者考慮了蒸餾操作符 D 的幾種實際實例化方式:

      • 全局摘要
      • 提取性 top-k 證據(共享)
      • random-k / 自舉工作區

      最后是操作符一致性訓練。前文將 M_θ 視為凍結,并純粹依賴于提示 / 調度。現在,研究者通過在與測試時相同的短上下文迭代接口下優化模型,確保訓練與部署 / 推理的一致性。

      基礎算法。對于基準強化學習(RL),研究者使用來自 Minimax-M1 的 CISPO 目標。對于給定的提示 x,生成器 π(?| θ_old) 使用舊策略 θ_old 生成 G 個回合 {o^G_i=1}。像 sympy 或 math-verify 這樣的自動化檢查器被用來為每個回合分配標量獎勵 r_i(±1)。CISPO 將 GRPO 的組歸一化優勢與 REINFORCE 結合起來,達到以下目標。



      為什么 PDR 訓練時只進行一輪?研究者表示,進行單一的 PDR 回合(包括 M 個早期草稿,蒸餾為 C,以及單次精煉)可以捕捉到關鍵的接口,同時控制 B_total 并穩定強化學習。在推理時,則可以使用相同的操作符運行多個回合(R > 1)。

      本文的數據混合方法在保留長軌跡能力的同時,教會模型在短迭代中進行推理。PDR 被模擬為一次并行→蒸餾→精煉回合,在該過程中,模型觀察 (x, C),并對最終解答軌跡進行可驗證獎勵優化。

      實驗結果

      在預算感知協議下,研究者將順序精煉(SR)和并行 - 蒸餾 - 精煉(PDR)操作符與長思維鏈(CoT)基準進行了比較。他們使用符號驗證器(如 sympy 和 math-verify) 來測量準確性,還將結果報告為順序預算 B_seq(沿著接受路徑的延遲代理)和總預算 B_total(所有調用的 token 數)的函數。

      研究者對 SR 和 PDR 作為推理時操作符應用于數學問題進行了評估。給定一個提示 x,模型生成一個思維軌跡和最終解答。思維跨度由 「...」限定,去除后僅使用自包含的解答作為后續回合輸入的構建。他們在 AIME 2024 和 AIME 2025(AoPS,2025)上進行評估,并報告在 16 次獨立生成中的準確率 - mean@16。

      通過實驗,研究者試圖回答以下四個研究問題:

      • RQ1:短上下文迭代是否能通過比較 {SR, PDR} 與長軌跡 CoT,在匹配的 B_seq 和 B_total 下超越長軌跡?
      • RQ2:通過比較三種 D 變體:全局摘要、提取性 top-k 和 random-k 自舉,找出生成 C^(r) 的最佳蒸餾策略。
      • RQ3:識別給定模型的驗證能力對最終性能的影響。
      • RQ4:操作符一致性訓練是否能夠改變帕累托前沿?他們比較了操作符一致性 + 標準強化學習與標準單軌跡強化學習。

      RQ1:短上下文迭代是否在匹配延遲的情況下超越長軌跡?

      圖 3 和圖 9 報告了在相同有效 token 預算 Bseq 下,AIME 2024 和 AIME 2025 上的準確性。研究者觀察到,從長思維鏈(Long CoT)轉到順序精煉(SR)時,準確性穩定提升;從 SR 到并行 - 蒸餾 - 精煉(PDR)時,這一提升繼續。

      對于 o3-mini,在有效預算為 49k token、每次調用思維預算為 16k token 時,準確性從 76.9(長鏈推理)提升至 81.5(SR)和 86.7(PDR),相較長思維鏈,絕對值提升了 +9.8 個百分比。gemini-2.5-flash 從 SR 到 PDR 的變化小于 o3-mini,表明 gemini-2.5-flash 在自我驗證方面更強。





      RQ2:哪種蒸餾(即摘要)策略效果最佳?

      表 2 研究了在固定輪次(每輪生成次數為 g = [16, 8, 4])和每輪 k = 2 個候選的設置下,PDR 中的蒸餾操作符 D。

      在不同數據集和基礎模型上,樣本級的 top-k 和全局摘要選擇一致性優于共享 top-k 和 random-k,并且隨著思維預算 B 的增加,差距逐漸擴大。

      主要的例外是 AIME 2025 與 o3-mini 的情況,其中全局摘要優于其他方法。研究者推測,o3-mini 的摘要特別擅長從正確和錯誤的草稿中捕捉線索,而這些線索在蒸餾后會促使更強的后續精煉。



      RQ3:驗證能力如何影響推理時間性能?

      從圖 6 和圖 8 中,研究者觀察到注入錯誤候選(Oracle (Incorrect))會導致所有模型的性能大幅下降。對于 o3-mini,性能下降顯著大于 gemini-2.5-flash,這表明后者具有更強的自我驗證和恢復能力。這一趨勢在 AIME 2024 和 AIME 2025 中都得到了體現。





      RQ4:操作符一致性訓練是否推動了帕累托前沿的移動?

      表 3 總結了主要結果。從每個強化學習(RL)目標得到的模型分別在長思維鏈(Long CoT)生成和 PDR 上進行了評估。PDR 強化學習相比基準方法在 AIME 2024 上提升了 +3.34 個百分點,在 AIME 2025 上提升了 +1.67 個百分點。

      從基準 RL 檢查點開始的持續更新,使得額外的 PDR 強化學習帶來了更大的提升,分別在 AIME 2024 和 AIME 2025 上提升了 +5.00 和 +4.59 個百分點。此外,研究者還觀察到,在 PDR RL 訓練下,長思維鏈生成也有一定的增益。

      這些結果表明,使用操作符一致性的強化學習目標進行訓練減少了訓練與部署之間的不匹配,將額外的計算轉化為準確性,而不會增加每次調用的順序預算。



      更多技術細節和實驗結果請參閱原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      新加坡首次打破50年慣例,將要為中國統一掃清一大障礙

      新加坡首次打破50年慣例,將要為中國統一掃清一大障礙

      云上烏托邦
      2026-01-23 15:07:21
      鐵證曝光!高市火速“跑路”,安倍死因大逆轉,兇手竟是受害者?

      鐵證曝光!高市火速“跑路”,安倍死因大逆轉,兇手竟是受害者?

      泠泠說史
      2026-01-23 16:56:42
      很多地方,已經開始不折騰了

      很多地方,已經開始不折騰了

      詩詞中國
      2026-01-23 19:01:10
      U23國足踢日本最強11人預測,直接主打541陣型,蒯紀聞無緣

      U23國足踢日本最強11人預測,直接主打541陣型,蒯紀聞無緣

      張麗說足球
      2026-01-24 10:39:56
      注意保暖!下一輪冷空氣明天開始

      注意保暖!下一輪冷空氣明天開始

      環球網資訊
      2026-01-24 08:58:16
      女性最想嘗試的6種姿勢:在親密中探索身心的自由密碼

      女性最想嘗試的6種姿勢:在親密中探索身心的自由密碼

      精彩分享快樂
      2026-01-24 07:10:03
      失業的人越來越多了

      失業的人越來越多了

      曹多魚的財經世界
      2025-12-24 14:56:20
      大陸取消臺灣34項農產品0關稅!臺當局急了!臺灣農民不起義?

      大陸取消臺灣34項農產品0關稅!臺當局急了!臺灣農民不起義?

      我心縱橫天地間
      2026-01-23 19:29:24
      涉嫌嚴重違紀違法!福建一處級干部被查(附簡歷)

      涉嫌嚴重違紀違法!福建一處級干部被查(附簡歷)

      人民資訊
      2026-01-23 23:12:03
      第一集就得打碼,這部HBO美劇太生猛了

      第一集就得打碼,這部HBO美劇太生猛了

      來看美劇
      2026-01-21 23:45:23
      數十萬網友涌入,李亞鵬帶貨登總榜第一,90分鐘銷售額破5000萬元,熱度遠超與輝同行!他關閉打賞,鞠躬致謝,提醒大家“理性購物”

      數十萬網友涌入,李亞鵬帶貨登總榜第一,90分鐘銷售額破5000萬元,熱度遠超與輝同行!他關閉打賞,鞠躬致謝,提醒大家“理性購物”

      每日經濟新聞
      2026-01-23 23:54:09
      81歲林豆豆現狀:已退休23年,獨居在北京老房子,用閱讀打發時間

      81歲林豆豆現狀:已退休23年,獨居在北京老房子,用閱讀打發時間

      攬星河的筆記
      2025-11-12 12:36:17
      和對待敘利亞一樣,俄羅斯承諾向委內瑞拉提供支持

      和對待敘利亞一樣,俄羅斯承諾向委內瑞拉提供支持

      一種觀點
      2026-01-03 20:06:23
      越扒越亮!李亞鵬當年在小沈陽熊黛林發生矛盾時的發言太爺們了!

      越扒越亮!李亞鵬當年在小沈陽熊黛林發生矛盾時的發言太爺們了!

      樂悠悠娛樂
      2026-01-22 08:58:02
      曼聯重大突破!皇馬 1.2 億巨星已點頭,克洛普或主動 “舍棄”

      曼聯重大突破!皇馬 1.2 億巨星已點頭,克洛普或主動 “舍棄”

      奶蓋熊本熊
      2026-01-24 06:29:26
      赴日中國游客驟減45%,日本轉靠歐美游客填補缺口:破4000萬大關

      赴日中國游客驟減45%,日本轉靠歐美游客填補缺口:破4000萬大關

      土澳的故事
      2026-01-20 22:21:57
      佐藤龍之介:如果可以的話,U23亞洲杯賽事金靴和MVP都想拿下

      佐藤龍之介:如果可以的話,U23亞洲杯賽事金靴和MVP都想拿下

      懂球帝
      2026-01-24 14:01:10
      青木率99%,高市早苗樂得連喊3聲“萬歲”,麻生:中方不足畏懼

      青木率99%,高市早苗樂得連喊3聲“萬歲”,麻生:中方不足畏懼

      現代小青青慕慕
      2026-01-24 08:58:01
      688478,重大資產重組!

      688478,重大資產重組!

      證券時報e公司
      2026-01-24 11:30:00
      記者:勇士有意用庫明加換回維金斯,后者曾是換巴特勒籌碼

      記者:勇士有意用庫明加換回維金斯,后者曾是換巴特勒籌碼

      懂球帝
      2026-01-24 11:11:09
      2026-01-24 17:19:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12179文章數 142549關注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      國防部通報:張又俠、劉振立被立案審查調查

      頭條要聞

      國防部通報:張又俠、劉振立被立案審查調查

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      李微漪更新:狼王格林去世,3字淚目

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      藝術
      數碼
      手機
      家居
      健康

      藝術要聞

      色彩之巔!法國蓬皮杜中心館藏藝術大師特展”在北京民生現代美術館開幕

      數碼要聞

      英特爾或于2028年有望為蘋果iPhone代工部分芯片

      手機要聞

      中國聯通確認:今年每月至少一款eSIM手機上市

      家居要聞

      在家度假 160平南洋混搭宅

      耳石脫落為何讓人天旋地轉+惡心?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 常熟市| 久久精品国产亚洲AⅤ无码| 99er热精品视频| 蜜桃91精品秘?入口| 乱色熟女综合一区二区三区| 亚洲熟妇色xxxxx亚洲| 精品伊人久久久大香线蕉欧美| 窝窝午夜看片| 临沂市| 久久中文字幕无码专区| 怡春院AV| 亚洲无码成人网| 国内精品久久人妻无码妲| 国产精品久久久久久久久久久久人四虎 | 成年无码av片完整版| 榆树市| 中国老熟女重囗味hdxx| 99ri精品| www国产无套内射com| 67194欧洲| 色欲人妻无码| 熟女91| 成黄色片视频日本秘书丝袜| 人与禽交av在线播放| 国产精品无码成人午夜电影| 在线免费不卡视频| AV最新高清无码专区| 成人3d动漫一区二区三区| 国产男女猛烈无遮挡免费视频网址 | 亚洲高清aⅴ日本欧美视频| 波多野结衣一区| 精品少妇人妻av一区二区三区| 国产内射合集颜射| 无码av免费精品一区二区三区| 一区二区三区无码视频免费福利| 色婷婷粉嫩Av| 无码人妻一区二区三区av| 国产拳交视频| 性饥渴人妻| 不卡的无码AV| 欧美日韩一卡|