<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      30B參數超越GPT-5!REDSearcher讓深度搜索Agent做到低成本可擴展

      0
      分享至



      「2018 到 2023 年間在 EMNLP 會議上發表的那篇論文中,第一作者本科就讀于達特茅斯學院、第四作者本科就讀于賓夕法尼亞大學的那篇科學論文,題目是什么?」

      這并不是一道靠記憶就能解答的題。Agent 必須在多輪環境交互中,不斷假設、驗證并修正路徑,始終保持推理一致性,才能將零散證據整合成自洽鏈條。

      2025 年被視為 AI Agent 元年,但真正的自主 Agent 核心在于「深度搜索」,在長程任務中像人類專家一樣維持目標、驗證信息并動態調整策略。然而,訓練這樣的 Agent 面臨三大瓶頸:

      • 數據稀缺:高難度長程問答任務極度依賴人工標注,成本高昂。因此,我們需要一條能夠自動化合成高難度問題的鏈路。
      • 能力鴻溝:預訓練模型雖知識儲備豐富,卻缺乏與真實環境進行長程交互的能力。這需要通過低成本的中訓練階段來彌補鴻溝。
      • 環境缺失:在真實環境中訓練成本高且不可控。一個功能等價的模擬環境,可以在本地復現搜索過程,從而支持算法的快速迭代。

      為突破瓶頸,REDSearcher 團隊設計了一套低成本、可擴展的訓練框架,最終使用 30B 規格模型在深度搜索任務上取得開源模型 SoTA,并且超越了 GPT-5 等一眾閉源模型。



      • 論文標題:REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
      • 項目主頁:https://github.com/RedSearchAgent/REDSearcher
      • 論文鏈接:https://arxiv.org/abs/2602.14234
      • Collections:https://huggingface.co/collections/Zchu/redsearcher



      一、什么是「足夠難」的深度搜索題目?

      什么是困難的搜索題目?推理跳數往往只是表象,應該追求的是問題的結構性困難。

      1. 拓撲復雜度:用樹寬衡量「結構性困難」

      復雜任務中,信息分叉交織形成回環。Agent 需同時記憶多路推論,時刻驗證一致性,并隨時準備整體回溯,這便是深度搜索的核心挑戰。為此,團隊引入圖論中的TreeWidth(樹寬)概念來刻畫這種「結構性困難」。以下通過三種結構問題進行對比:



      • 線性/樹狀(樹寬=1):典型鏈式推理,只需按部就班檢索便可解答。
      • 菱形/回環(樹寬=2):出現分叉與重匯合,要求 Agent 維持多路假設的一致性,并在矛盾時進行回溯。
      • 強耦合子圖(樹寬≥3):形成網狀約束,需要將零散證據拼合成一致的整體,迫使模型進行全局驗證和回溯。

      2. 信息分散度:杜絕搜索「捷徑」

      即使問題的拓撲結構很復雜,如果存在一個網頁恰好包含所有關鍵事實,模型一次檢索就能抄走答案。為此,團隊引入「信息分散度」,即覆蓋全部關鍵證據所需的最小來源數。信息分散度越大,表明問題相關的證據片段(注:原文為“爭取片段”,疑為筆誤,此處已作修正)在互聯網上的分布就更加零散,這迫使 Agent 與外部環境進行更多輪次的交互從而獲取更加充分的信息。

      二、大規模「自動化」合成

      「高難度」的深度搜索問題

      基于雙約束復雜度標準,我們采用 graph-to-text 流程合成數據:先生成符合樹寬與分散度的推理圖,再將其翻譯為自然語言問題,并經過多層校驗確保「高難度、可解且答案唯一」。同時,我們設計了基于「結構化信息」與「網絡瀏覽」兩套圖構造流程,以覆蓋不同搜索環境。在合成問題中,我們采取:

      • 拓撲結構增強:直接生成高樹寬圖的成功率較低。為此,我們引入大模型智能體對初始依賴圖進行「拓撲加密」,通過添加環狀與交錯約束,顯著提升結構復雜度,迭代地提高問題難度。
      • 工具增強的問題合成:在問題構造階段,我們主動植入工具調用需求。通過將關鍵實體替換為隱含工具依賴的表達(如地名→地圖服務、文章→谷歌學術),使工具調用成為解題前置條件。



      三、多模態擴展:從「文本圖」到「多模態圖」

      在文本合成基礎上,REDSearcher 通過模態注入將純文本推理圖轉化為跨模態推理,使部分約束錨定在圖像中。

      • 視覺屬性錨定:用圖像描述替換節點的文本屬性,迫使模型先識別圖像再關聯知識。
      • 跨模態依賴:設置視覺不可替代約束,使圖像搜索成為推理必經之路,而非冗余信息。
      • 視覺語義抽象:使用抽象指代替代直接命名,迫使模型識別圖像內容后再進行搜索。
      • 模態靈活插入:視覺證據可插入推理鏈任意位置,既可早期設置瓶頸增加難度,也可后期引入驗證,實現難度精細控制。

      通過這套輕量級擴展,REDSearcher 可高效遷移至多模態搜索領域,合成高質量的圖文深度搜索問題。

      四、「成本可控」Mid-Training 強化智能體能力

      預訓練模型缺乏多輪交互訓練,在長程搜索中易出現目標漂移、重復搜索等問題。為此,REDSearcher 采用可擴展的兩階段 Mid-Training 框架,依次強化模型的「原子能力」與「組合能力」,實現從語言建模到智能體的過渡。



      原子能力建設

      針對深度搜索重要的兩個基礎能力優化:

      • 意圖錨定:從含噪的觀測中精準抓取關鍵證據,過濾噪聲,減少幻覺與推理漂移。
      • 層次化規劃:將復雜目標拆解為可立即求解的具體目標與需逐步消解的不確定目標,確保規劃可落地。

      組合能力建設

      通過環境交互強化長程任務中的狀態維持與目標一致性,全程以成本為約束:

      • 工具調用能力:通過合成工具協議與本地模擬環境交互,使模型在 ReACT 范式下掌握基礎與外界環境交互能力。
      • 長程交互能力:在「功能一致」模擬環境中,讓 Agent 進行長程的環境交互,強化規劃能力與目標一致性。

      五、后訓練持續進化:

      不只是「搜得多」,更要「搜得準」

      后訓練采取 SFT + Agentic RL 雙階段增強:

      • 在真實環境中交互,通過多重過濾獲取長程高質量軌跡,教會模型深度搜索行為。
      • 在真實搜索環境中進一步優化策略,關鍵設計包括:
      • 低成本驗證:構建「功能等價」的本地模擬環境,保持 API 一致、證據完備且含噪聲,加速實驗迭代。
      • 數據質量保障:針對合成問題中存在的答案錯誤、一題多解現象,采用 Agent-as-Verifier 對強化學習問題集進行校驗,避免數據污染影響訓練穩定性。

      團隊觀察到了效率與性能同步提升的現象:隨著訓練進行,模型的平均交互輪次不斷下降,但準確率持續提升。這表明 REDSearcher 并非簡單的「暴力搜索」,而是學會了更精準的信息獲取策略,主動減少無效調用,形成「越訓越聰明」的良性循環。

      六、實驗結果

      在多項深度搜索權威基準上,REDSearcher 在開源模型中取得了優異的表現:

      • REDSearcher 在同規模開源模型中取得了 SoTA 水平,并且超過了 GPT-5-Thinking-high、Gemini-2.5-pro、Claude-4.5-sonnet 一眾閉源先進模型(*為帶有上下文管理的性能)。
      • REDSearcher-MM 在多模態搜索基準中相比同規格模型取得了 SoTA 水平,并且性能超過 Gemini-2.5-pro,在部分基準上取得了接近 Gemini-3-pro 的性能。





      結語

      REDSearcher 的核心在于系統性設計:從圖論角度定義深度搜索任務復雜度,以雙約束優化可擴展合成數據,以兩階段中間訓練降低能力遷移成本,以高質量軌跡合成結合強化學習實現持續迭代。它提供了一條可復現、低成本的深度搜索智能體訓練路徑,使 AI 系統從靜態知識查詢走向開放環境下的自主探索、驗證與信息整合。

      作者簡介

      初征,哈工大社會計算與信息檢索中心在讀博士生,由劉銘教授和秦兵教授共同指導,研究方向是智能體、大語言模型、復雜推理、深度搜索。

      王梟,就職于小紅書 Hi Lab,負責Search Agent,主要關注長程推理、智能體、數據合成、強化學習。

      Jack Hong,小紅書 Hi Lab 團隊算法實習生,主要研究方向是多模態大模型、Agent、計算機視覺等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      油價已逼近傷害經濟的水平

      油價已逼近傷害經濟的水平

      新浪財經
      2026-03-10 00:53:10
      大藤沙月戰勝王曼昱,和教練揮拳慶祝,沒想到曼昱的反應居然這樣

      大藤沙月戰勝王曼昱,和教練揮拳慶祝,沒想到曼昱的反應居然這樣

      大嘴說臺球
      2026-03-10 15:48:49
      高市翻車了?日本打出藏了14年的“底牌”,外媒:根本攔不住了!

      高市翻車了?日本打出藏了14年的“底牌”,外媒:根本攔不住了!

      瘋狂小菠蘿
      2026-03-10 14:50:57
      王毅的話管用,沙特態度180度轉變!美國秒懂:中國是四兩撥千斤

      王毅的話管用,沙特態度180度轉變!美國秒懂:中國是四兩撥千斤

      東極妙嚴
      2026-03-08 15:19:42
      尼克松晚年坦言:他很后悔當初訪華,只因毛主席識破的訪華計謀!

      尼克松晚年坦言:他很后悔當初訪華,只因毛主席識破的訪華計謀!

      冰語歷史
      2026-03-07 06:23:39
      新奧迪A6L預售32.3萬起,比老款便宜10萬塊

      新奧迪A6L預售32.3萬起,比老款便宜10萬塊

      車動態
      2026-03-10 18:17:16
      “第一軟飯男”去世,伺候美國老婦13年,繼承268億,死后錢給誰

      “第一軟飯男”去世,伺候美國老婦13年,繼承268億,死后錢給誰

      來科點譜
      2026-02-23 07:04:53
      行程有變,特朗普訪華規格縮水,中方對美說不,美國先遣隊已離京

      行程有變,特朗普訪華規格縮水,中方對美說不,美國先遣隊已離京

      科普100克克
      2026-03-10 16:14:17
      騰訊QClaw官網上線:可一鍵部署“龍蝦”,兼容QQ、微信

      騰訊QClaw官網上線:可一鍵部署“龍蝦”,兼容QQ、微信

      PChome電腦之家
      2026-03-09 14:37:39
      第6波反制,中方準時索賠,巴政府收到罰單,兩家公司被中國約談

      第6波反制,中方準時索賠,巴政府收到罰單,兩家公司被中國約談

      影孖看世界
      2026-03-10 16:56:04
      武漢小區流浪貓遭集體投毒,十幾條生命慘死,衛健委警方介入調查

      武漢小區流浪貓遭集體投毒,十幾條生命慘死,衛健委警方介入調查

      今朝牛馬
      2026-03-10 16:31:04
      伊朗軍艦在被擊沉前幾分鐘,一水兵致電父親,稱美軍兩次命令棄船

      伊朗軍艦在被擊沉前幾分鐘,一水兵致電父親,稱美軍兩次命令棄船

      看盡人間百態
      2026-03-09 06:54:40
      賭球+假球+出賣球隊!被NBA終身禁賽后,他用一場三雙宣告回歸

      賭球+假球+出賣球隊!被NBA終身禁賽后,他用一場三雙宣告回歸

      球童無忌
      2026-03-10 20:13:59
      碎三觀!一河南網友哭訴長期被妻子身體“冷暴力”,評論區炸鍋…

      碎三觀!一河南網友哭訴長期被妻子身體“冷暴力”,評論區炸鍋…

      火山詩話
      2026-03-09 05:29:27
      特朗普改口,原油高點大跌30%, 美股直線拉升

      特朗普改口,原油高點大跌30%, 美股直線拉升

      每日經濟新聞
      2026-03-10 08:53:07
      iPhone這幾個設置別再開了!關掉瞬間絲滑,90%人都不知道

      iPhone這幾個設置別再開了!關掉瞬間絲滑,90%人都不知道

      小柱解說游戲
      2026-03-09 04:07:55
      890億美元買600架飛機,特朗普訪華之前,中國要送美國一份大禮?

      890億美元買600架飛機,特朗普訪華之前,中國要送美國一份大禮?

      策前論
      2026-03-09 23:04:19
      震驚!網傳廣東一車一日8次占應急車道被扣48分,橫跨贛鄂湘三省

      震驚!網傳廣東一車一日8次占應急車道被扣48分,橫跨贛鄂湘三省

      火山詩話
      2026-03-10 17:06:29
      48歲中科院美女博導在中東突然去世:死因披露,給兒子留言曝光

      48歲中科院美女博導在中東突然去世:死因披露,給兒子留言曝光

      博士觀察
      2026-03-09 16:22:08
      火箭最爛雙人組?防守效率191.7!難怪馬刺不要他,雷霆沒看走眼

      火箭最爛雙人組?防守效率191.7!難怪馬刺不要他,雷霆沒看走眼

      你的籃球頻道
      2026-03-10 14:26:18
      2026-03-10 20:39:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12467文章數 142580關注度
      往期回顧 全部

      科技要聞

      全民"養蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      特朗普開始找接班人 當眾問捐款人怎么看萬斯和魯比奧

      頭條要聞

      特朗普開始找接班人 當眾問捐款人怎么看萬斯和魯比奧

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      肖戰首奪SMG視帝,孫儷四封視后創歷史

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      手機
      藝術
      數碼
      房產
      軍事航空

      手機要聞

      三星Galaxy手機新增閑置72小時自動重啟功能,提升隱私安全

      藝術要聞

      30000畝杏花開了,新疆的春天這么美!

      數碼要聞

      史上最大電池折疊屏旗艦!榮耀Magic V6圖賞

      房產要聞

      信號!千億巨頭入局,三亞開啟新一輪大征拆!

      軍事要聞

      剛說完戰爭很快結束 特朗普改口

      無障礙瀏覽 進入關懷版