![]()
DeepSeek-R1 的成功證明了「深度擴展(Depth Scaling)」在解決復雜邏輯推理上的巨大潛力。AI 社區開始思考另一個維度的可能性:當任務不僅需要深度的推理,更需要極寬廣度的信息搜集時,單一的大模型還是最優解嗎?
設想這樣一個場景:你需要整理 “2025 年全球前 50 大科技公司的營收、凈利潤及研發投入對比表”。這是一個典型的廣度信息搜索任務。對于單個大模型而言,哪怕它是擁有 671B 參數的超大模型,面對這種需要數十次檢索,往往會陷入上下文信息干擾和串行效率低的問題,而顯得力不從心。
近日,來自清華大學與無問芯穹的 RLinf 團隊提出了一種全新的互補維度 ——「廣度擴展(Width Scaling)」,并以此發布了多智能體系統WideSeek-R1。不同于以往依賴人工設計工作流的多智能體系統,該工作采用了一種「Lead-agent-Subagent」的分層多智能體框架 ,并通過多智能體強化學習(MARL)進行端到端訓練,展現出靈活的規模化調度與高效的并發處理能力。
實驗結果顯示,4B 參數的 WideSeek-R1 在廣度搜索任務上的表現達到了40%的 Item F1指標,不僅看齊 671B 參數的 DeepSeek-R1 單智能體,更大幅超越了同參數規模的基線模型。
![]()
- 論文標題:WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
- 論文鏈接:https://arxiv.org/abs/2602.04634
- 項目主頁:https://wideseek-r1.github.io
- 代碼文檔:https://rlinf.readthedocs.io/en/latest/rst_source/examples/agentic/wideseek_r1/index.html
- Hugging Face 模型和數據:https://huggingface.co/collections/RLinf/wideseek-r1
1. 只有「深度」還不夠,
搜索需要「廣度」
過去一年,大模型的進步主要集中在深度擴展上。像 OpenAI o1 或 DeepSeek-R1 這樣的模型,通過增加推理步數來解決復雜難題。
然而,隨著任務廣度的增加,瓶頸從 “個體能力” 轉移到了 “組織能力”。
在廣度信息搜索任務中,單智能體面臨兩大痛點:
1.上下文干擾:隨著檢索信息的堆積,無關信息會干擾模型對后續子任務的判斷。
2.串行效率低:依次處理數十個獨立的子任務不僅慢,而且容易因序列過長而遺忘有用信息,導致任務失敗。
對此,WideSeek-R1 給出的答案是:用多智能體系統 + MARL 實現廣度擴展。
![]()
圖1:深度擴展與廣度擴展的對比
當傳統的深度擴展(藍色曲線)依賴單智能體多輪串行推理而逐漸遭遇性能瓶頸時,廣度擴展(粉色曲線)通過增加智能體個數,通過多智能體并行執行開辟了新的增長路徑;而我們提出的WideSeek-R1(紅色星號),通過多智能體強化學習(MARL)進一步實現了調度與執行的協同優化,證明了在廣度信息搜索任務中,協同的 “寬度” 擴展能帶來比 “深度” 更顯著的性能飛躍。
2. WideSeek-R1:采用端到端 MARL
訓練 “編排” 和 “執行” 能力
現有的多智能體系統大多依賴手動設計的工作流(Hand-crafted workflows)或簡單的輪流對話,難以實現真正的并行高效協作。
WideSeek-R1 引入了一個「Lead-agent-Subagent」的層級框架,并用多智能體強化學習(MARL)端到端訓練:
- Lead-agent:負責將一個寬泛的復雜問題分解為獨立的子任務,可調度多個 Subagents 并行執行。同時也需要對 Subagent 返回的結果進行總結歸納,判斷應該直接返回最終答案,還是進行下一回合的任務分解。
- Subagent:在隔離的上下文中并行工作,利用搜索和瀏覽等工具獲取特定信息。
為了訓練這個系統,研究團隊在 GRPO 算法基礎上,針對多智能體、多回合場景進行了兩項關鍵改進:
- 多智能體優勢分配(Multi-Agent Advantage Assignment):多智能體協作中,最大的難題是 “功勞歸誰”。WideSeek-R1 將同一個樣本的最終獎勵共享給所有參與的 Agent,確立 “榮辱與共” 的協作目標,避免復雜的信用分配導致的 Reward Hacking 。
- 優勢雙重加權歸一(Dual-Level Advantage Reweighting):
- Token 級加權歸一: 類似于 DAPO,確保長思維鏈的 Turn 在某一智能體里獲得足夠高的權重;
- Agent 級加權歸一: 確保增加 Agent 數量是為了真正提高質量,而非僅僅為了 “湊人頭”。
![]()
圖2:WideSeek-R1 推理與訓練流程概述
3. 構造廣度信息搜索任務訓練數據:
彌補開源社區領域空白
當前開源數據集通常關注深度搜索任務,盡管已有一些廣度搜索訓練集,但是數據量較小,無法滿足大規模 RL 訓練。研究團隊填補了社區空白,開發了一套全自動的數據構建流水線,基于 HybridQA 數據集,合成了20,000 條高質量的廣度信息搜索任務。
這一流水線包含三個階段 :
1.問題生成:提取用戶意圖并轉化為具有特定約束的廣度信息搜索問題;
2.答案生成:利用 Gemini-3-Pro 獨立生成兩個答案及唯一標識列;
3.QA 對過濾:通過對兩個答案的一致性校驗和難度過濾,得到最終高質量數據集。
![]()
圖3: 三階段自動化數據構建流程概述
4. 實驗結果
(1) 多智能體 4B 模型在 WideSearch 上追平單智能體 671B 模型
![]()
表1: WideSearch 主實驗結果
研究團隊在公開的廣度信息搜索測評任務 WideSearch 上,對現有單智能體、多智能體 baseline 進行測試,實驗數據顯示,WideSeek-R1-4B 取得了 40.0% 的 Item F1 分數:
- 相比未訓練的 Qwen3-4B 多智能體基線提升了 8.8% 。
- 相比同參數的單智能體版本 SingleSeek-R1-4B 提升了 11.9% 。
- 最重要的是,這一成績與單智能體 DeepSeek-R1-671B 幾乎持平,而參數量僅為后者的 1/170 。
(2) 驗證「廣度擴展」定律
![]()
圖4: 面向測試時計算資源的深度與廣度擴展性能對比
文章最核心的發現之一在于 Scaling 行為的對比:
- 深度擴展(Depth Scaling):隨著推理步數增加,單智能體性能很快飽和,甚至因上下文過長而下降。
- 廣度擴展(Width Scaling):在單智能體性能飽和情況下,增加并行 Subagent 的數量(從 1 到 10)展現了持續的性能增長潛力。在此基礎上,MARL 訓練通過優化協作機制,進一步顯著提升了系統的性能上限。
(3) 在標準 QA 上保持性能
![]()
表2: 在傳統單跳與多跳QA任務上的實驗結果
在 NQ、HotpotQA 等 7 個標準問答數據集上,WideSeek-R1-4B 同樣表現出色,平均分達到 59.0%,優于部分 7B/8B 的多智能體基線(如 AgentFlow, OWL 等),證明了模型并未因專注于廣度搜索而犧牲通用搜索能力。
(4) 消融實驗
![]()
圖5: 智能體模型的消融實驗(左圖),訓練數據的消融實驗(右圖)
左圖:我們發現只有當 Lead-agent 和 Subagent 同時使用 WideSeek-R1-4B 時才能達到最佳性能,這驗證了端到端多智能體強化學習訓練的重要性。
右圖:在相同數據集規模的前提下,在混合數據集(廣度 + 深度)上訓練的模型表現始終優于僅在單一類型數據集上訓練的模型,表明廣度數據與深度數據提供了互補的增益。
5. 算法背后的工程哲學:
RLinf 的關鍵支撐
![]()
圖6: RLinf 多智能體強化學習訓練架構圖
WideSeek-R1 傳達的核心結論是:在廣度信息搜索場景里,Width Scaling + MARL確實能帶來進一步收益。這一結論除了需要“算法層面”的創新,更需要“系統層面”的強力支撐。例如:多智能體的調度、多工具的統一接入與管理、多會話的調度與隔離、動態會話與長尾問題的緩解,以及訓練與推理間的高效切換與資源分配等。
為應對上述系統挑戰,團隊將自研單智能體強化學習框架 RLinf 進一步擴展至多智能體強化學習場景。系統結構如圖6所示,包含三個粒度:MARL 邏輯流、 Agent 工作流、以及工具庫、推理庫、訓練庫等服務化組件。 MARL 邏輯流包含 Rollout 、訓練與權重同步,由 RLinf Runner 實現。相較單智能體,多智能體強化學習的復雜邏輯主要體現在 Rollout 部分, RLinf 新增 AgentLoop 模塊負責執行多智能體核心推理邏輯,即各智能體基于大模型進行交替的推理與工具調用。最細粒度的服務組件均繼承自 RLinf Worker ,從而可以靈活調用 RLinf 提供的通信接口,極大降低了開發復雜度。在多智能體場景中,如 lead-agent 與多個 Subagent ,可通過多個 SGLang 實例進行推理,僅需簡單配置即可拉起整套多組件交互流程。
在訓練效率方面,框架引入了多項優化:
- 樣本打包(Sample Packing):將不同長度的樣本動態打包,使訓練 token 更集中于有效計算,減少 padding 開銷,提升 GPU 利用率;在長序列、多輪 Agent 軌跡訓練中,可顯著減少無效算力消耗并縮短單步時間。
- 多輪前綴合并(Multi-Turn Prefix Merging):針對 Agent 多輪生成中后一輪 prompt 包含前一輪 prompt 與響應的結構特點,RLinf 可合并可復用前綴,避免重復前向與反向計算,在多輪工具調用場景中尤為有效。
- 面向Session的親和性請求分發:在通信層實現基于親和性的請求分發,保障多會話的合理調度。
- 高效權重同步:支持訓練并行配置到推理并行配置的就地轉換,結合 NCCL / CUDAIPC 高帶寬同步路徑,降低頻繁同步的開銷,同時減少冗余權重拼接與中間態內存占用,緩解同步階段的性能瓶頸與 OOM 風險。
- 組件自動擴縮容:支持各組件的自動擴縮容,有效應對動態性與長尾問題。
系統性能效果:WideSeek-R1通過廣度拓展有效拓展信息獲取的范圍,而廣度的拓展是通過更多的并行subagents完成的。從下圖實驗數據可見,通過高效的系統實現與并發優化,拓展一倍的subagents的數量并沒有帶來明顯的eval時間的增加,充分說明系統在scaling上的有效性。
![]()
圖7: Agent scaling性能對比
6. 結語
WideSeek-R1 表明搜索不僅要Deep,還要Wide,同時也表明新一代科研的形態需要“算法創新 + 系統支撐”雙管齊下。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.