<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      清華、無問芯穹發布多智能體WideSeek-R1,4B模型比肩671B模型!

      0
      分享至



      DeepSeek-R1 的成功證明了「深度擴展(Depth Scaling)」在解決復雜邏輯推理上的巨大潛力。AI 社區開始思考另一個維度的可能性:當任務不僅需要深度的推理,更需要極寬廣度的信息搜集時,單一的大模型還是最優解嗎?

      設想這樣一個場景:你需要整理 “2025 年全球前 50 大科技公司的營收、凈利潤及研發投入對比表”。這是一個典型的廣度信息搜索任務。對于單個大模型而言,哪怕它是擁有 671B 參數的超大模型,面對這種需要數十次檢索,往往會陷入上下文信息干擾和串行效率低的問題,而顯得力不從心。

      近日,來自清華大學與無問芯穹的 RLinf 團隊提出了一種全新的互補維度 ——「廣度擴展(Width Scaling)」,并以此發布了多智能體系統WideSeek-R1。不同于以往依賴人工設計工作流的多智能體系統,該工作采用了一種「Lead-agent-Subagent」的分層多智能體框架 ,并通過多智能體強化學習(MARL)進行端到端訓練,展現出靈活的規模化調度高效的并發處理能力。

      實驗結果顯示,4B 參數的 WideSeek-R1 在廣度搜索任務上的表現達到了40%的 Item F1指標,不僅看齊 671B 參數的 DeepSeek-R1 單智能體,更大幅超越了同參數規模的基線模型。



      • 論文標題:WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
      • 論文鏈接:https://arxiv.org/abs/2602.04634
      • 項目主頁:https://wideseek-r1.github.io
      • 代碼文檔:https://rlinf.readthedocs.io/en/latest/rst_source/examples/agentic/wideseek_r1/index.html
      • Hugging Face 模型和數據:https://huggingface.co/collections/RLinf/wideseek-r1

      1. 只有「深度」還不夠,

      搜索需要「廣度」

      過去一年,大模型的進步主要集中在深度擴展上。像 OpenAI o1 或 DeepSeek-R1 這樣的模型,通過增加推理步數來解決復雜難題。

      然而,隨著任務廣度的增加,瓶頸從 “個體能力” 轉移到了 “組織能力”。

      在廣度信息搜索任務中,單智能體面臨兩大痛點:

      1.上下文干擾:隨著檢索信息的堆積,無關信息會干擾模型對后續子任務的判斷。

      2.串行效率低:依次處理數十個獨立的子任務不僅慢,而且容易因序列過長而遺忘有用信息,導致任務失敗。

      對此,WideSeek-R1 給出的答案是:用多智能體系統 + MARL 實現廣度擴展。



      圖1:深度擴展與廣度擴展的對比

      當傳統的深度擴展(藍色曲線)依賴單智能體多輪串行推理而逐漸遭遇性能瓶頸時,廣度擴展(粉色曲線)通過增加智能體個數,通過多智能體并行執行開辟了新的增長路徑;而我們提出的WideSeek-R1(紅色星號),通過多智能體強化學習(MARL)進一步實現了調度與執行的協同優化,證明了在廣度信息搜索任務中,協同的 “寬度” 擴展能帶來比 “深度” 更顯著的性能飛躍。

      2. WideSeek-R1:采用端到端 MARL

      訓練 “編排” 和 “執行” 能力

      現有的多智能體系統大多依賴手動設計的工作流(Hand-crafted workflows)或簡單的輪流對話,難以實現真正的并行高效協作。

      WideSeek-R1 引入了一個「Lead-agent-Subagent」的層級框架,并用多智能體強化學習(MARL)端到端訓練:

      • Lead-agent:負責將一個寬泛的復雜問題分解為獨立的子任務,可調度多個 Subagents 并行執行。同時也需要對 Subagent 返回的結果進行總結歸納,判斷應該直接返回最終答案,還是進行下一回合的任務分解。
      • Subagent:在隔離的上下文中并行工作,利用搜索和瀏覽等工具獲取特定信息。

      為了訓練這個系統,研究團隊在 GRPO 算法基礎上,針對多智能體、多回合場景進行了兩項關鍵改進:

      • 多智能體優勢分配(Multi-Agent Advantage Assignment):多智能體協作中,最大的難題是 “功勞歸誰”。WideSeek-R1 將同一個樣本的最終獎勵共享給所有參與的 Agent,確立 “榮辱與共” 的協作目標,避免復雜的信用分配導致的 Reward Hacking 。
      • 優勢雙重加權歸一(Dual-Level Advantage Reweighting):
      • Token 級加權歸一: 類似于 DAPO,確保長思維鏈的 Turn 在某一智能體里獲得足夠高的權重;
      • Agent 級加權歸一: 確保增加 Agent 數量是為了真正提高質量,而非僅僅為了 “湊人頭”。



      圖2:WideSeek-R1 推理與訓練流程概述

      3. 構造廣度信息搜索任務訓練數據:

      彌補開源社區領域空白

      當前開源數據集通常關注深度搜索任務,盡管已有一些廣度搜索訓練集,但是數據量較小,無法滿足大規模 RL 訓練。研究團隊填補了社區空白,開發了一套全自動的數據構建流水線,基于 HybridQA 數據集,合成了20,000 條高質量的廣度信息搜索任務

      這一流水線包含三個階段 :

      1.問題生成:提取用戶意圖并轉化為具有特定約束的廣度信息搜索問題;

      2.答案生成:利用 Gemini-3-Pro 獨立生成兩個答案及唯一標識列;

      3.QA 對過濾:通過對兩個答案的一致性校驗和難度過濾,得到最終高質量數據集。



      圖3: 三階段自動化數據構建流程概述

      4. 實驗結果

      (1) 多智能體 4B 模型在 WideSearch 上追平單智能體 671B 模型



      表1: WideSearch 主實驗結果

      研究團隊在公開的廣度信息搜索測評任務 WideSearch 上,對現有單智能體、多智能體 baseline 進行測試,實驗數據顯示,WideSeek-R1-4B 取得了 40.0% 的 Item F1 分數

      • 相比未訓練的 Qwen3-4B 多智能體基線提升了 8.8% 。
      • 相比同參數的單智能體版本 SingleSeek-R1-4B 提升了 11.9% 。
      • 最重要的是,這一成績與單智能體 DeepSeek-R1-671B 幾乎持平,而參數量僅為后者的 1/170 。

      (2) 驗證「廣度擴展」定律



      圖4: 面向測試時計算資源的深度與廣度擴展性能對比

      文章最核心的發現之一在于 Scaling 行為的對比:

      • 深度擴展(Depth Scaling):隨著推理步數增加,單智能體性能很快飽和,甚至因上下文過長而下降。
      • 廣度擴展(Width Scaling):在單智能體性能飽和情況下,增加并行 Subagent 的數量(從 1 到 10)展現了持續的性能增長潛力。在此基礎上,MARL 訓練通過優化協作機制,進一步顯著提升了系統的性能上限。

      (3) 在標準 QA 上保持性能



      表2: 在傳統單跳與多跳QA任務上的實驗結果

      在 NQ、HotpotQA 等 7 個標準問答數據集上,WideSeek-R1-4B 同樣表現出色,平均分達到 59.0%,優于部分 7B/8B 的多智能體基線(如 AgentFlow, OWL 等),證明了模型并未因專注于廣度搜索而犧牲通用搜索能力。

      (4) 消融實驗



      圖5: 智能體模型的消融實驗(左圖),訓練數據的消融實驗(右圖)

      左圖:我們發現只有當 Lead-agent 和 Subagent 同時使用 WideSeek-R1-4B 時才能達到最佳性能,這驗證了端到端多智能體強化學習訓練的重要性。

      右圖:在相同數據集規模的前提下,在混合數據集(廣度 + 深度)上訓練的模型表現始終優于僅在單一類型數據集上訓練的模型,表明廣度數據與深度數據提供了互補的增益。

      5. 算法背后的工程哲學:

      RLinf 的關鍵支撐



      圖6: RLinf 多智能體強化學習訓練架構圖

      WideSeek-R1 傳達的核心結論是:在廣度信息搜索場景里,Width Scaling + MARL確實能帶來進一步收益。這一結論除了需要“算法層面”的創新,更需要“系統層面”的強力支撐。例如:多智能體的調度、多工具的統一接入與管理、多會話的調度與隔離、動態會話與長尾問題的緩解,以及訓練與推理間的高效切換與資源分配等。

      為應對上述系統挑戰,團隊將自研單智能體強化學習框架 RLinf 進一步擴展至多智能體強化學習場景。系統結構如圖6所示,包含三個粒度:MARL 邏輯流、 Agent 工作流、以及工具庫、推理庫、訓練庫等服務化組件。 MARL 邏輯流包含 Rollout 、訓練與權重同步,由 RLinf Runner 實現。相較單智能體,多智能體強化學習的復雜邏輯主要體現在 Rollout 部分, RLinf 新增 AgentLoop 模塊負責執行多智能體核心推理邏輯,即各智能體基于大模型進行交替的推理與工具調用。最細粒度的服務組件均繼承自 RLinf Worker ,從而可以靈活調用 RLinf 提供的通信接口,極大降低了開發復雜度。在多智能體場景中,如 lead-agent 與多個 Subagent ,可通過多個 SGLang 實例進行推理,僅需簡單配置即可拉起整套多組件交互流程。

      在訓練效率方面,框架引入了多項優化:

      • 樣本打包(Sample Packing):將不同長度的樣本動態打包,使訓練 token 更集中于有效計算,減少 padding 開銷,提升 GPU 利用率;在長序列、多輪 Agent 軌跡訓練中,可顯著減少無效算力消耗并縮短單步時間。
      • 多輪前綴合并(Multi-Turn Prefix Merging):針對 Agent 多輪生成中后一輪 prompt 包含前一輪 prompt 與響應的結構特點,RLinf 可合并可復用前綴,避免重復前向與反向計算,在多輪工具調用場景中尤為有效。
      • 面向Session的親和性請求分發:在通信層實現基于親和性的請求分發,保障多會話的合理調度。
      • 高效權重同步:支持訓練并行配置到推理并行配置的就地轉換,結合 NCCL / CUDAIPC 高帶寬同步路徑,降低頻繁同步的開銷,同時減少冗余權重拼接與中間態內存占用,緩解同步階段的性能瓶頸與 OOM 風險。
      • 組件自動擴縮容:支持各組件的自動擴縮容,有效應對動態性與長尾問題。

      系統性能效果:WideSeek-R1通過廣度拓展有效拓展信息獲取的范圍,而廣度的拓展是通過更多的并行subagents完成的。從下圖實驗數據可見,通過高效的系統實現與并發優化,拓展一倍的subagents的數量并沒有帶來明顯的eval時間的增加,充分說明系統在scaling上的有效性。



      圖7: Agent scaling性能對比

      6. 結語

      WideSeek-R1 表明搜索不僅要Deep,還要Wide,同時也表明新一代科研的形態需要“算法創新 + 系統支撐”雙管齊下。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      祖國人回應演《生化危機》威斯克:我50歲了!

      祖國人回應演《生化危機》威斯克:我50歲了!

      游民星空
      2026-03-27 18:28:54
      美國的大炮一響,伊朗賣給中國的石油,為什么反而比以前更多了?

      美國的大炮一響,伊朗賣給中國的石油,為什么反而比以前更多了?

      錯過美好
      2026-03-27 04:00:54
      一代香港美人,感覺不是很開心的樣子,大家還記得她的名字嗎?

      一代香港美人,感覺不是很開心的樣子,大家還記得她的名字嗎?

      動物奇奇怪怪
      2026-03-26 08:35:16
      特朗普否認急于達成協議 稱對伊朗軍事行動繼續

      特朗普否認急于達成協議 稱對伊朗軍事行動繼續

      財聯社
      2026-03-27 05:29:07
      美專家:朝鮮戰爭換下彭德懷能打贏?粟裕領兵輸得更慘!僅憑四點

      美專家:朝鮮戰爭換下彭德懷能打贏?粟裕領兵輸得更慘!僅憑四點

      銅臭的歷史味
      2026-03-27 11:45:19
      比亞迪殺瘋了!350公里續航電池來襲,外賣小哥徹底解放

      比亞迪殺瘋了!350公里續航電池來襲,外賣小哥徹底解放

      老特有話說
      2026-03-27 15:14:55
      東契奇本賽季場均33.6分,自75年以來僅喬丹哈登科比比他多

      東契奇本賽季場均33.6分,自75年以來僅喬丹哈登科比比他多

      林子說事
      2026-03-27 17:39:17
      60年,陳賡與家人留下最后合照,氣色已明顯不好,第二年便病逝

      60年,陳賡與家人留下最后合照,氣色已明顯不好,第二年便病逝

      大運河時空
      2026-03-26 10:05:03
      最像人的人形機器人

      最像人的人形機器人

      喜之春
      2026-02-13 07:09:48
      國臺辦重磅發聲,統一后建京臺高速,誰敢擋路就要消滅誰

      國臺辦重磅發聲,統一后建京臺高速,誰敢擋路就要消滅誰

      基斯默默
      2026-03-26 17:05:29
      女生主動起來有多黏人?網友:這些女的太開放了

      女生主動起來有多黏人?網友:這些女的太開放了

      帶你感受人間冷暖
      2026-01-27 00:20:06
      珠海,被點名表揚!

      珠海,被點名表揚!

      珠海發布
      2026-03-27 20:18:35
      現貨黃金價格深夜再度跳水,一度跌逾3%!金價為何“上躥下跳”?

      現貨黃金價格深夜再度跳水,一度跌逾3%!金價為何“上躥下跳”?

      澎湃新聞
      2026-03-27 09:10:27
      人民日報痛批大學生 “沉睡” 現象:躺平四年,畢業真的會失業!

      人民日報痛批大學生 “沉睡” 現象:躺平四年,畢業真的會失業!

      復轉這些年
      2026-03-25 10:02:32
      NBA官方MVP榜:文班亞馬火速登頂!這波MVP爭奪戰太激烈了

      NBA官方MVP榜:文班亞馬火速登頂!這波MVP爭奪戰太激烈了

      仰臥撐FTUer
      2026-03-27 22:41:07
      自作自受!瘋狂甩賣球員,導致主場空空蕩蕩,觀眾寥寥無幾

      自作自受!瘋狂甩賣球員,導致主場空空蕩蕩,觀眾寥寥無幾

      體育哲人
      2026-03-27 13:43:42
      你有知道哪些炸裂的秘密?網友:我有個秘密說出來肯定大家要笑死

      你有知道哪些炸裂的秘密?網友:我有個秘密說出來肯定大家要笑死

      帶你感受人間冷暖
      2026-01-29 00:10:05
      朝鮮戰場繳獲美軍火箭筒,拆解驚覺技術差距改寫陸軍征程

      朝鮮戰場繳獲美軍火箭筒,拆解驚覺技術差距改寫陸軍征程

      嘮叨說歷史
      2026-03-18 13:40:57
      你聽過最勁爆的瓜是啥?網友:被大八歲的補習班老師表白了

      你聽過最勁爆的瓜是啥?網友:被大八歲的補習班老師表白了

      帶你感受人間冷暖
      2025-11-26 00:10:06
      Manus兩名高管禁止離境? 外交部回應

      Manus兩名高管禁止離境? 外交部回應

      每日經濟新聞
      2026-03-26 16:36:02
      2026-03-28 04:07:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12619文章數 142595關注度
      往期回顧 全部

      科技要聞

      楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

      頭條要聞

      男醫生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

      頭條要聞

      男醫生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

      體育要聞

      邵佳一:足球就像一場馬拉松

      娛樂要聞

      范瑋琪加盟,官宣《浪姐7》遭全網抵制

      財經要聞

      我在小吃培訓機構學習“科技與狠活”

      汽車要聞

      與眾08,金標大眾不能輸的一戰

      態度原創

      時尚
      旅游
      教育
      健康
      軍事航空

      推廣中獎名單-更新至2026年3月11日推廣

      旅游要聞

      日照嵐山“打飛的”賞春成新時尚

      教育要聞

      澳洲留學和vs英國留學哪個更值得?

      干細胞抗衰4大誤區,90%的人都中招

      軍事要聞

      伊朗:已組織超100萬人為地面戰斗做準備

      無障礙瀏覽 進入關懷版