網易首頁 > 網易號 > 正文申請入駐

清華、無問芯穹發布多智能體WideSeek-R1，4B模型比肩671B模型！

2026-03-27 14:30:44　來源: 機器之心Pro

河北舉報

分享至

DeepSeek-R1 的成功證明了「深度擴展（Depth Scaling）」在解決復雜邏輯推理上的巨大潛力。AI 社區開始思考另一個維度的可能性：當任務不僅需要深度的推理，更需要極寬廣度的信息搜集時，單一的大模型還是最優解嗎？

設想這樣一個場景：你需要整理 “2025 年全球前 50 大科技公司的營收、凈利潤及研發投入對比表”。這是一個典型的廣度信息搜索任務。對于單個大模型而言，哪怕它是擁有 671B 參數的超大模型，面對這種需要數十次檢索，往往會陷入上下文信息干擾和串行效率低的問題，而顯得力不從心。

近日，來自清華大學與無問芯穹的 RLinf 團隊提出了一種全新的互補維度 ——「廣度擴展（Width Scaling）」，并以此發布了多智能體系統WideSeek-R1。不同于以往依賴人工設計工作流的多智能體系統，該工作采用了一種「Lead-agent-Subagent」的分層多智能體框架，并通過多智能體強化學習（MARL）進行端到端訓練，展現出靈活的規模化調度與高效的并發處理能力。

實驗結果顯示，4B 參數的 WideSeek-R1 在廣度搜索任務上的表現達到了40%的 Item F1指標，不僅看齊 671B 參數的 DeepSeek-R1 單智能體，更大幅超越了同參數規模的基線模型。

論文標題：WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
論文鏈接：https://arxiv.org/abs/2602.04634
項目主頁：https://wideseek-r1.github.io
代碼文檔：https://rlinf.readthedocs.io/en/latest/rst_source/examples/agentic/wideseek_r1/index.html
Hugging Face 模型和數據：https://huggingface.co/collections/RLinf/wideseek-r1

1. 只有「深度」還不夠，

搜索需要「廣度」

過去一年，大模型的進步主要集中在深度擴展上。像 OpenAI o1 或 DeepSeek-R1 這樣的模型，通過增加推理步數來解決復雜難題。

然而，隨著任務廣度的增加，瓶頸從 “個體能力” 轉移到了 “組織能力”。

在廣度信息搜索任務中，單智能體面臨兩大痛點：

1.上下文干擾：隨著檢索信息的堆積，無關信息會干擾模型對后續子任務的判斷。

2.串行效率低：依次處理數十個獨立的子任務不僅慢，而且容易因序列過長而遺忘有用信息，導致任務失敗。

對此，WideSeek-R1 給出的答案是：用多智能體系統 + MARL 實現廣度擴展。

圖1：深度擴展與廣度擴展的對比

當傳統的深度擴展（藍色曲線）依賴單智能體多輪串行推理而逐漸遭遇性能瓶頸時，廣度擴展（粉色曲線）通過增加智能體個數，通過多智能體并行執行開辟了新的增長路徑；而我們提出的WideSeek-R1（紅色星號），通過多智能體強化學習（MARL）進一步實現了調度與執行的協同優化，證明了在廣度信息搜索任務中，協同的 “寬度” 擴展能帶來比 “深度” 更顯著的性能飛躍。

2. WideSeek-R1：采用端到端 MARL

訓練 “編排” 和 “執行” 能力

現有的多智能體系統大多依賴手動設計的工作流（Hand-crafted workflows）或簡單的輪流對話，難以實現真正的并行高效協作。

WideSeek-R1 引入了一個「Lead-agent-Subagent」的層級框架，并用多智能體強化學習（MARL）端到端訓練：

Lead-agent：負責將一個寬泛的復雜問題分解為獨立的子任務，可調度多個 Subagents 并行執行。同時也需要對 Subagent 返回的結果進行總結歸納，判斷應該直接返回最終答案，還是進行下一回合的任務分解。
Subagent：在隔離的上下文中并行工作，利用搜索和瀏覽等工具獲取特定信息。

為了訓練這個系統，研究團隊在 GRPO 算法基礎上，針對多智能體、多回合場景進行了兩項關鍵改進：

多智能體優勢分配（Multi-Agent Advantage Assignment）：多智能體協作中，最大的難題是 “功勞歸誰”。WideSeek-R1 將同一個樣本的最終獎勵共享給所有參與的 Agent，確立 “榮辱與共” 的協作目標，避免復雜的信用分配導致的 Reward Hacking 。
優勢雙重加權歸一（Dual-Level Advantage Reweighting）：
Token 級加權歸一：類似于 DAPO，確保長思維鏈的 Turn 在某一智能體里獲得足夠高的權重；
Agent 級加權歸一：確保增加 Agent 數量是為了真正提高質量，而非僅僅為了 “湊人頭”。

圖2：WideSeek-R1 推理與訓練流程概述

3. 構造廣度信息搜索任務訓練數據：

彌補開源社區領域空白

當前開源數據集通常關注深度搜索任務，盡管已有一些廣度搜索訓練集，但是數據量較小，無法滿足大規模 RL 訓練。研究團隊填補了社區空白，開發了一套全自動的數據構建流水線，基于 HybridQA 數據集，合成了20,000 條高質量的廣度信息搜索任務。

這一流水線包含三個階段：

1.問題生成：提取用戶意圖并轉化為具有特定約束的廣度信息搜索問題；

2.答案生成：利用 Gemini-3-Pro 獨立生成兩個答案及唯一標識列；

3.QA 對過濾：通過對兩個答案的一致性校驗和難度過濾，得到最終高質量數據集。

圖3: 三階段自動化數據構建流程概述

4. 實驗結果

(1) 多智能體 4B 模型在 WideSearch 上追平單智能體 671B 模型

表1: WideSearch 主實驗結果

研究團隊在公開的廣度信息搜索測評任務 WideSearch 上，對現有單智能體、多智能體 baseline 進行測試，實驗數據顯示，WideSeek-R1-4B 取得了 40.0% 的 Item F1 分數：

相比未訓練的 Qwen3-4B 多智能體基線提升了 8.8% 。
相比同參數的單智能體版本 SingleSeek-R1-4B 提升了 11.9% 。
最重要的是，這一成績與單智能體 DeepSeek-R1-671B 幾乎持平，而參數量僅為后者的 1/170 。

(2) 驗證「廣度擴展」定律

圖4: 面向測試時計算資源的深度與廣度擴展性能對比

文章最核心的發現之一在于 Scaling 行為的對比：

深度擴展（Depth Scaling）：隨著推理步數增加，單智能體性能很快飽和，甚至因上下文過長而下降。
廣度擴展（Width Scaling）：在單智能體性能飽和情況下，增加并行 Subagent 的數量（從 1 到 10）展現了持續的性能增長潛力。在此基礎上，MARL 訓練通過優化協作機制，進一步顯著提升了系統的性能上限。

(3) 在標準 QA 上保持性能

表2: 在傳統單跳與多跳QA任務上的實驗結果

在 NQ、HotpotQA 等 7 個標準問答數據集上，WideSeek-R1-4B 同樣表現出色，平均分達到 59.0%，優于部分 7B/8B 的多智能體基線（如 AgentFlow, OWL 等），證明了模型并未因專注于廣度搜索而犧牲通用搜索能力。

(4) 消融實驗

圖5: 智能體模型的消融實驗（左圖），訓練數據的消融實驗（右圖）

左圖：我們發現只有當 Lead-agent 和 Subagent 同時使用 WideSeek-R1-4B 時才能達到最佳性能，這驗證了端到端多智能體強化學習訓練的重要性。

右圖：在相同數據集規模的前提下，在混合數據集（廣度 + 深度）上訓練的模型表現始終優于僅在單一類型數據集上訓練的模型，表明廣度數據與深度數據提供了互補的增益。

5. 算法背后的工程哲學：

RLinf 的關鍵支撐

圖6: RLinf 多智能體強化學習訓練架構圖

WideSeek-R1 傳達的核心結論是：在廣度信息搜索場景里，Width Scaling + MARL確實能帶來進一步收益。這一結論除了需要“算法層面”的創新，更需要“系統層面”的強力支撐。例如：多智能體的調度、多工具的統一接入與管理、多會話的調度與隔離、動態會話與長尾問題的緩解，以及訓練與推理間的高效切換與資源分配等。

為應對上述系統挑戰，團隊將自研單智能體強化學習框架 RLinf 進一步擴展至多智能體強化學習場景。系統結構如圖6所示，包含三個粒度：MARL 邏輯流、 Agent 工作流、以及工具庫、推理庫、訓練庫等服務化組件。 MARL 邏輯流包含 Rollout 、訓練與權重同步，由 RLinf Runner 實現。相較單智能體，多智能體強化學習的復雜邏輯主要體現在 Rollout 部分， RLinf 新增 AgentLoop 模塊負責執行多智能體核心推理邏輯，即各智能體基于大模型進行交替的推理與工具調用。最細粒度的服務組件均繼承自 RLinf Worker ，從而可以靈活調用 RLinf 提供的通信接口，極大降低了開發復雜度。在多智能體場景中，如 lead-agent 與多個 Subagent ，可通過多個 SGLang 實例進行推理，僅需簡單配置即可拉起整套多組件交互流程。

在訓練效率方面，框架引入了多項優化：

樣本打包（Sample Packing）：將不同長度的樣本動態打包，使訓練 token 更集中于有效計算，減少 padding 開銷，提升 GPU 利用率；在長序列、多輪 Agent 軌跡訓練中，可顯著減少無效算力消耗并縮短單步時間。
多輪前綴合并（Multi-Turn Prefix Merging）：針對 Agent 多輪生成中后一輪 prompt 包含前一輪 prompt 與響應的結構特點，RLinf 可合并可復用前綴，避免重復前向與反向計算，在多輪工具調用場景中尤為有效。
面向Session的親和性請求分發：在通信層實現基于親和性的請求分發，保障多會話的合理調度。
高效權重同步：支持訓練并行配置到推理并行配置的就地轉換，結合 NCCL / CUDAIPC 高帶寬同步路徑，降低頻繁同步的開銷，同時減少冗余權重拼接與中間態內存占用，緩解同步階段的性能瓶頸與 OOM 風險。
組件自動擴縮容：支持各組件的自動擴縮容，有效應對動態性與長尾問題。

系統性能效果：WideSeek-R1通過廣度拓展有效拓展信息獲取的范圍，而廣度的拓展是通過更多的并行subagents完成的。從下圖實驗數據可見，通過高效的系統實現與并發優化，拓展一倍的subagents的數量并沒有帶來明顯的eval時間的增加，充分說明系統在scaling上的有效性。

圖7: Agent scaling性能對比

6. 結語

WideSeek-R1 表明搜索不僅要Deep，還要Wide，同時也表明新一代科研的形態需要“算法創新 + 系統支撐”雙管齊下。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.