網易首頁 > 網易號 > 正文申請入駐

通研院提出NPR框架，讓智能體進化出原生的并行推理大腦

2025-12-29 11:26:32　來源: 機器之心Pro

河北舉報

分享至

近年來，大語言模型在「寫得長、寫得順」這件事上進步飛快。但當任務升級到真正復雜的推理場景 —— 需要兵分多路探索、需要自我反思與相互印證、需要在多條線索之間做匯總與取舍時，傳統的鏈式思維（Chain-of-Thought）往往就開始「吃力」：容易被早期判斷帶偏、發散不足、自我糾錯弱，而且順序生成的效率天然受限。

北京通用人工智能研究院（BIGAI）語言交互實驗室（NLCo）最新工作Native Parallel Reasoner（NPR，原生并行推理器），瞄準的正是這類瓶頸：

讓智能體在一次思考中同時衍生并維護多條候選推理路徑，并在關鍵節點「分支 + 聚合」，最終像拼圖一樣匯總線索，合成最優解。

更重要的是，NPR 的突破點不只是「并行生成的工程技巧」，而是提出了一套「自蒸餾 + 并行強化學習」三階段訓練范式，并配套專門的并行推理引擎，目標是讓并行推理從外掛變為模型的原生認知能力。

論文標題：Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning
論文連接：https://arxiv.org/pdf/2512.07461
展示頁面：https://bigai-nlco.github.io/Native-Parallel-Reasoner

人們對語言智能體（Language Agent）的研究已經把關注從「單一思維鏈擴展」推廣到了「多步深度推理」。模型能夠進行更深層次的推理令人興奮，但未來的超級智能真正需要的，是能更廣泛地并行探索多條可能思考路徑—— 也就是在一次推理過程中同時嘗試多種解法，然后再把結果合并校驗。類似 MapReduce 的分而治之思路對進一步擴展智能體的測試時計算的能力邊界至關重要，但想把它天然地整合進一個智能體中，存在巨大的挑戰。

1. 算法與架構不匹配

現有推理引擎和 RL 算法很難原生地支持「分支 + 聚合」操作。推理引擎通常無法有效調度并行分支；常用的 RL 技術又會截斷或削弱那些觸發并行結構的特殊詞元的梯度，阻礙模型學習嚴格的并行控制邏輯。

2. 低效的手工并行機制

早期把并行思路內化的嘗試多依賴于手工設計的分治規則，無法充分復用共享的 KV Cache 狀態，導致每個分支重復計算，時間復雜度退化到線性 O (N)，難以滿足實時或大規模部署的效率要求。

3. 對強監督蒸餾的依賴

像 Multiverse 這類方法雖能實現并行，但高度依賴于強教師模型蒸餾出的示例，無法通過自舉的方式擴展自身的智能邊界。學生模型不過是在模仿教師的串行拓撲并把它「塞入」并行格式，結果是把教師的局限也一并繼承，短時間內難以產生新的、模型本身固有的并行策略 —— 達到了目前的「智能瓶頸」。

背景與痛點：為什么我們迫切需要并行推理？

人們對智能體的期待，正在從「能多想一步」的單一思維鏈，升級到「能多維思考」的深度推理。未來更強的智能體，必須具備廣泛探索多條思考路徑的能力 —— 這很像經典的 MapReduce 思想：把復雜問題拆開并行處理，再聚合結果完成全局最優的決策。

但要讓模型真正學會這種「分身術」，現實里往往卡在三座大山：

1）并行思考數據極難獲得：對強教師蒸餾的過度依賴

現有不少并行推理工作需要強教師模型提供高質量并行軌跡（如 Multiverse [4] 類方法）。問題在于學生模型更多是在模仿教師的串行拓撲再「塞進并行格式」，結果是把教師的局限一并繼承，難以自舉式擴展智能邊界，很難真正涌現出「模型自身固有的并行策略」，形成新的智能瓶頸。

2）低效的手工并行機制：分支之間難共享、重復計算嚴重

早期模型并行常依賴手工設計的分治規則：每條路徑按既定模式推理或生成。由于缺乏對共享步驟的有效復用，常常出現每個分支都重復計算公共前綴的情況，效率很難滿足實時推理和大規模部署需求。

3）基礎設施與算法對并行架構支持不足：分支 + 聚合「學不會」

現有推理引擎、強化學習算法對「分支 — 聚合」結構往往缺乏原生支持：推理引擎難以高效調度并行分支；常用 RL 技術可能會截斷或削弱觸發并行結構的特殊控制詞元梯度，從而阻礙模型學習嚴格的并行控制邏輯。

NPR 的核心理念：把「并行性」升維成模型的原生能力

NPR 的關鍵詞在「原生」二字：研究團隊試圖在零外部監督（不依賴強教師并行軌跡）的條件下，探索一條讓模型自我進化出并行推理能力的路徑。

整體思路是一個漸進式的三階段訓練范式，讓模型從「會用并行格式寫出來」，逐步過渡到「計算圖層面真的并行執行」。

三階段訓練范式：從「并行外形」到「并行大腦」

階段一：并行格式學習 —— 先學會「怎么寫成并行」

第一步不追求一步到位「真的并行」，而是讓模型先掌握并行推理的表達結構：如何標記分支、如何組織多條候選路徑、如何定義聚合點。

階段二：自蒸餾 —— 內化「并行思考邏輯」，擺脫外部老師

在具備并行表達能力后，NPR 用自蒸餾方式讓模型用自己的生成結果反過來訓練自己：通過篩選與沉淀，讓模型逐步內化「多分支探索 — 相互印證 — 匯總收斂」的推理規律，而不是照搬教師的串行偏好與局限。

階段三：并行感知強化學習 —— 從「模仿并行」邁向「執行并行」

最后一步是關鍵躍遷：利用并行感知的強化學習，讓模型學到什么時候該分叉、分叉多少、如何在聚合點進行比較與合并，使并行不再停留在文本表面，而是真正成為推理過程可執行的控制邏輯。

這一步把「并行性」從工程技巧，推進到模型的原生能力層面。

如下圖所示，經過三個階段的訓練，NPR 準確率從約 17% 持續爬升，最終達到 50.4%（中間兩條學習曲線分別對應第一階段的格式學習與第三階段的并行強化學習）；與傳統推理方式相比，NPR 實現了約 4.6 倍生成加速（右側柱狀圖）。

NPR 具體實現細節

NPR 訓練范式

Stage 1：Format-following Reinforcement Learning（NPR-ZERO）

目標：在無任何外部并行示例 / 教師情況下，讓模型學會生成結構化的并行格式（如
等結構化標簽），并盡量保證答案正確性。
方法：以格式合規與答案正確為獎勵信號，對初始指令微調模型進行 DAPO 風格的強化學習，從而得到能產出并行格式軌跡的生成器（NPR-ZERO）。這一步為后續自蒸餾提供原始候選軌跡。

Stage 2：Rejection Sampling + Parallel Warmup（NPR-BETA）

目標：把 Stage 1 的 “格式化產物” 變為高質量的訓練數據并讓模型在并行語義上穩定。
方法：對 NPR-ZERO 進行拒絕采樣并應用嚴格的篩選器（必須同時滿足「格式合規」與「答案正確」），保留自蒸餾的并行推理軌跡，然后在此之上做冷啟動的并行 SFT 預熱微調，同時引入并行注意力掩碼（Parallel Attention Mask）與并行位置編碼（Parallel Positional Encoding），讓模型內部能夠支持并行分支的獨立計算（并實現 KV Cache 重用以避免重復計算）。

Stage 3：Native-Parallel RL（PAPO）

目標：在并行執行引擎上用強化學習直接優化并行分支策略，使其不僅會「寫」并行格式，也會「算」并行結果。
方法：提出并實現Parallel-Aware Policy Optimization (PAPO)—— 對并行語義做專門修改的策略優化方法：使用并行 Rollout 的 NPR-Engine 推理引擎以保證結構正確性、在批次層級進行優勢歸一化、保留特殊結構化 Token 的梯度并放棄重要性采樣以維持穩定的 On-Policy 同策略梯度更新。PAPO 能直接在并行計算圖內優化分支策略，從不斷地試錯中學會有效的問題拆解與合并策略。

關鍵技術細節

1. 自蒸餾與嚴格篩選（Rejection Sampling）

從 NPR-ZERO 生成大量并行格式的候選軌跡后，采用兩條硬性篩選規則只保留高質量樣本進入 D_accept：

Outcome Correctness：模型生成的候選軌跡的解析答案與 Ground Truth 一致。
Structured Parallelism：輸出嚴格遵循并行格式的 Schema（標簽、塊邊界等）。

當且僅當同時滿足以上兩條規則的采樣軌跡被接受用于冷啟動并行 SFT（NPR-BETA），此策略顯著減少噪聲并保證訓練語料的并行性與可學習性。

2. 并行注意力掩碼與并行位置編碼

為在單次前向傳遞中同時存在多條 Reasoning Path，NPR 采用 Multiverse 風格的并行注意力掩碼與專門設計的并行位置編碼（對應論文給出的 Algorithm 2 偽代碼），保證不同分支互相隔離但共享上下文 KV Cache，從而實現KV Cache 重用并避免每條分支重復計算上下文代價。該編碼亦允許通過標簽 Token 標明分支 / 步驟 / 指南塊，便于引擎解析。

3. Parallel-Aware Policy Optimization（PAPO）

并行語義下直接套用經典 PPO 或 DAPO 會遇到特殊 Token 被剪裁掉、重要性采樣不穩定等問題。PAPO 的主要設計包括：

并行 Rollout：使用 NPR-Engine 產生嚴格遵守并行 Schema 的軌跡，保證樣本合法。
結構化過濾：格式違規樣本在進入優化前被剔除，獎勵退化為純準確性（+1 / ?1）。
批次級優勢歸一化（Batch-level Normalization）：由于格式違規樣本被移除，組內方差塌縮，因此用更大范圍（batch 內多組）統計標準差來穩定優勢估計。
保留特殊 Token 的梯度 & 放棄重要性采樣：為防止觸發并行結構的特殊標簽被裁剪掉，PAPO 在 Token 級別保留梯度流；同時放棄重要性采樣，采用嚴格的 On-policy Objective，避免重采樣比帶來的不穩定。

4. AI Infra 工程化改進：NPR-Engine

實驗證明：把并行語義放到生產環境的并行 RL，會暴露出大量的工程問題（KV Cache 重復釋放導致的內存泄漏、并行 Token 計數導致的超長生成、非法并行 schema 導致的未定義狀態等）。論文在引擎層面做了幾項關鍵修復：

預算感知的 KV 回收：避免 Radix-Tree KV 路徑的 Opportunistic Recycling 導致 Double-Free，引入預算感知的確定性回收機制與 Memory Flush 策略。
分支感知的 Token 累積策略：把全局 Token 預算從 “只看最長分支” 改為 “按活躍分支因子累計”，避免超出 max_new_tokens。
格式預檢與輕量不變性：在分支展開前加一層格式合法性檢查，快速拒絕潛在非法分支以保證 Determinism。

這些工程改進和實現是確保能穩定 Parallel RL 的訓練，進而獲得并行思考智能體的前提。

主要實驗與結論

評測基準與度量

在 8 個推理型基準上評測：AIME24/25、HMMT25、OlympiadBench、Minerva-Math、ZebraLogic、AMC23、MATH500 等。對小規模競賽類數據使用 avg@8（采樣 8 條解答的平均正確率），對大規模或單答設置使用 avg@1。

訓練數據優勢：性能提升的關鍵在于用自行提煉的數據集（NPR-BETA 的 ORZ-8k）替換了 Multiverse 的訓練語料庫（MV-4B 的 s1.1-8k）。盡管兩個流程在實現細節上略有不同，但都依賴于并行式的 SFT，因此比較結果具有意義。數據替換的影響清晰且一致：AIME24 的性能從 46.7 提升至 50.8（+4.1），ZebraLogic 從 60.2 提升至 76.1（+15.9），AMC23 從 75.0 提升至 85.9（+10.9），MATH500 從 81.6 提升至 91.6（+10.0）。總體而言，平均得分從 50.1 提升至 59.0（+8.9）。

并行 SFT 的優勢：從順序 SFT（例如 SR-BETA）切換到并行 SFT 方法（NPR-BETA）能夠顯著提升各種推理基準測試的性能。順序 SFT 引入了較強的步驟依賴性先驗，限制了任務分解的靈活性。相比之下，并行 SFT 在訓練過程中使模型能夠接觸到結構上并行的軌跡，從而實現更獨立的子問題探索。具體而言，AIME25 從 37.1 提升至 42.9 (+5.8)，OlympiadBench 從 56.3 提升至 60.1 (+3.8)，HMMT25 從 22.5 提升至 23.3 (+0.8)，ZebraLogic 從 72.8 提升至 76.1 (+3.3)。整體性能從 58.2 提升至 59.0 (+0.8)，僅在少數基準測試中出現輕微退步。

并行強化學習優勢：基于 NPR-BETA，應用并行強化學習算法可獲得進一步的性能提升，并始終優于順序強化學習（NPR 與 SR 相比）。這些改進是廣泛而系統的：AIME24 從 57.1 提升至 63.3（+6.2），HMMT25 從 26.3 提升至 30.8（+4.5），Minerva-Math 從 38.2 提升至 43.0（+4.8）。其他基準測試也顯示出穩步提升，AIME25（+1.2）、OlympiadBench（+1.5）、ZebraLogic（+2.8）、AMC23（+2.2）和 MATH500（+0.8）。總體而言，平均得分從 62.0 提升至 65.0（+3.0）。

Multiverse-32B 在不同數據集上的并行率差異顯著，表明其并行推理的采用高度依賴于數據集。尤其是在 ZebraLogic 等邏輯密集型任務上，其性能明顯低于多個數學競賽數據集，這表明從順序行為逐步過渡到并行行為的 Multiverse 訓練范式，導致并行策略的內化不一致，并且對領域特征非常敏感。相比之下，NPR 模型在所有八個數據集上均達到了 100.0% 的并行觸發率。這種一致性意味著端到端的 NPR 訓練流程能夠更可靠地將并行推理作為模型的默認問題解決模式，而不受數據集領域或復雜性的影響。實際上，這意味著 NPR 不僅能更頻繁地觸發并行推理，而且能夠在不同的評估數據集上穩健地實現這一點。

NPR 在所有五個基準測試中均取得了最佳效率，始終優于 Multiverse（1.3 倍至 2.4 倍）和自回歸基線，這表明該方法具有穩健的泛化能力。重要的是，加速比隨任務難度而增加：NPR 在較難的問題（AIME25：4.6 倍；HMMT25：4.1 倍）上觀察到的加速比在較容易的問題（AMC23：2.9 倍）上更大，這表明當需要更深入地探索解路徑時，NPR 優勢日益凸顯。證明了 NPR 既能提高準確率，而且在可以并行探索多種解策略時尤其有效。

案例解析

論文給了若干具體題目的并行解法示例，典型模式為：

：并行產生若干獨立 plan（每個 plan 一句戰術）；

：每個 plan 獨立并行展開具體推理步驟；

：整合與交叉驗證，得出最終結論并給出簡短答案（boxed answer）。

舉例：對于域函數或幾何題，某些 plan 會分別做不同的分解（代數、數值檢驗、幾何角度關系），最后

將各分支結果比對、剔除不一致項并輸出最終答案。這種「多角度并行 + 匯總」能顯著減少因單一路徑假設錯導致的花費。

結語

本文提出了一種簡單且可擴展的框架，用于構建原生并行推理器。該推理器無需依賴外部教師模型即可學習自適應分解、多樣化的并行規劃和可靠的聚合。通過將自提煉的并行 SFT 與智能體并行 RL 相結合，NPR 能夠生成真正的并行推理策略，而非模擬或腳本化的策略。在八個推理基準測試上的實驗表明，與 Multiverse 數據集、自回歸訓練和直接強化學習相比，該方法均有顯著的改進。論文中的分析進一步證明了該方法能夠顯著加速推理、增強測試時的可擴展性，并且不存在偽并行行為。案例研究展示了該模型如何根據問題難度調整其并行性，從而實現結構化探索和穩健的驗證。這些結果表明，原生并行推理是實現更通用、可擴展智能的一個有前景的方向。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.