![]()
當大模型推理進入Parallel Thinking時代,一個關鍵問題隨之出現:
模型在并行推理的過程中,究竟發生了什么?多條推理路徑同時展開,看似為模型帶來了更強的能力,卻也引入了一個長期被忽視的問題——大量計算是否正在被浪費在已經「沒有必要繼續」的思考上?
為了回答這一問題,來自馬里蘭大學、圣路易斯華盛頓大學、北卡羅來納大學教堂山分校等機構的研究團隊提出了Parallel-Probe。不同于直接從算法設計出發,該研究首先通過引入2D Probing,對 online 并行推理過程中的全局動態性進行了系統性刻畫。研究發現,并行推理并非一個「算得越多越好」的過程:全局共識往往在所有分支結束之前就已提前穩定,而少數冗長的長尾路徑卻持續占據大量計算資源,成為并行推理效率的主要瓶頸。
基于這些關鍵發現,研究團隊進一步提出了一個 training-free 的并行推理控制算法 Parallel-Probe,能夠在不犧牲核心準確率的前提下,顯著減少無效計算,將推理延遲降低35.8%,總 token 成本降低25.8%。
![]()
- 論文名稱:Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing
- 論文鏈接:
- https://arxiv.org/pdf/2602.03845
- Code:
- https://github.com/zhengkid/Parallel-Probe
- Online Judge:
- https://huggingface.co/spaces/EfficientReasoning/efficient_reasoning_online_judgement
核心痛點:孤立的
「并行路徑」到底帶來了什么?
目前的并行推理方法(如多數投票機制)存在一個顯著缺陷:各推理分支彼此獨立。這意味著,即使大部分分支已經達成了共識,系統仍需等待所有分支(包括那些冗余的長尾路徑)全部生成完畢。
![]()
研究人員提出,這種「局部視角」導致了嚴重的效率低下。通過系統2D 探測接口,研究團隊揭示了并行推理的三大底層動態特征:
- 非單調縮放:準確率并非隨著算力投入單調增加,而是取決于「寬度」與「深度」的精細平衡(Figure (a))。
- 路徑長度不均:并行分支的生成長度差異極大,計算資源往往被少數「長尾」路徑占據(Figure (b))。
- 共識提早穩定:全局共識往往在所有分支結束前就已經達成(平均共識達成率僅為 0.31)(Figure (c))。
技術突破:基于全局信號的
「外科手術式」 2D Budget Control
即插即用:Parallel-Probe 是一種模型無關的方法,可直接適配各種現成的開源或閉源大語言模型。
![]()
針對上述發現,Parallel-Probe采用了一種 Training-Free 的輕量級控制器,通過兩個核心機制優化同時從寬度和深度優化在線并行思考:
- 基于共識的早期停止(Consensus-based Early Stopping):該機制周期性地從各分支中提取中間結果。一旦探測到全局多數答案在連續幾個周期內保持穩定,控制器將直接終止整組推理,避免后續冗余步驟。
- 基于偏差的分支剪枝(Deviation-based Branch Pruning):實時監控每一條路徑。如果某條路徑顯著偏離了當前的全局大趨勢(即出現異常),系統會果斷對其進行「剔除」,將資源傾注在更有潛力的路徑上。
實驗結果:刷新帕累托前
研究團隊在Qwen3系列模型(0.6B 至 8B)上進行了廣泛測試,涵蓋了 AIME 2024/2025 和 HMMT 2025 等高難度競賽題庫。
![]()
實驗結果表明,Parallel-Probe 在性能、成本效率和延遲效率之間建立了更優的平衡點,系統性地優于現有的 ESC 和 SC 等基準方法。
基礎設施貢獻:SCOUT 測試床
為了推動該領域的持續研究,團隊還推出了SCOUT(順序與并發離線利用測試床)。該平臺實現了推理生成與控制策略的解耦,允許開發者在極低開銷下模擬各種縮放策略,極大提升了測試效率。
![]()
代碼及 Online Judge 平臺已開源:
- GitHub:
- https://github.com/zhengkid/Parallel-Probe
- 平臺:Efficient Reasoning Online Judge
本文作者
鄭童,馬里蘭大學計算機科學系二年級博士生,研究方向聚焦于Reasoning尤其是Parallel Thinking(并行思考)。他的研究關注如何打破傳統順序推理在效率與魯棒性上的瓶頸,使大語言模型能夠以更結構化、更高效的方式進行并行推理。代表性工作包括Parallel-R1,該工作首次提出基于強化學習的框架,在真實世界推理任務中自適應地激勵并行思考行為;以及MoT(Mixture of Thoughts),系統性地構建多推理模態的并行思考機制,在訓練與推理階段統一整合自然語言、代碼與符號推理等不同模態,從而實現更高效、更具表達力的并行推理。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.