<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      30B參數(shù)超越GPT-5!REDSearcher讓深度搜索Agent做到低成本可擴展

      0
      分享至



      「2018 到 2023 年間在 EMNLP 會議上發(fā)表的那篇論文中,第一作者本科就讀于達(dá)特茅斯學(xué)院、第四作者本科就讀于賓夕法尼亞大學(xué)的那篇科學(xué)論文,題目是什么?」

      這并不是一道靠記憶就能解答的題。Agent 必須在多輪環(huán)境交互中,不斷假設(shè)、驗證并修正路徑,始終保持推理一致性,才能將零散證據(jù)整合成自洽鏈條。

      2025 年被視為 AI Agent 元年,但真正的自主 Agent 核心在于「深度搜索」,在長程任務(wù)中像人類專家一樣維持目標(biāo)、驗證信息并動態(tài)調(diào)整策略。然而,訓(xùn)練這樣的 Agent 面臨三大瓶頸:

      • 數(shù)據(jù)稀缺:高難度長程問答任務(wù)極度依賴人工標(biāo)注,成本高昂。因此,我們需要一條能夠自動化合成高難度問題的鏈路。
      • 能力鴻溝:預(yù)訓(xùn)練模型雖知識儲備豐富,卻缺乏與真實環(huán)境進行長程交互的能力。這需要通過低成本的中訓(xùn)練階段來彌補鴻溝。
      • 環(huán)境缺失:在真實環(huán)境中訓(xùn)練成本高且不可控。一個功能等價的模擬環(huán)境,可以在本地復(fù)現(xiàn)搜索過程,從而支持算法的快速迭代。

      為突破瓶頸,REDSearcher 團隊設(shè)計了一套低成本、可擴展的訓(xùn)練框架,最終使用 30B 規(guī)格模型在深度搜索任務(wù)上取得開源模型 SoTA,并且超越了 GPT-5 等一眾閉源模型。



      • 論文標(biāo)題:REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
      • 項目主頁:https://github.com/RedSearchAgent/REDSearcher
      • 論文鏈接:https://arxiv.org/abs/2602.14234
      • Collections:https://huggingface.co/collections/Zchu/redsearcher



      一、什么是「足夠難」的深度搜索題目?

      什么是困難的搜索題目?推理跳數(shù)往往只是表象,應(yīng)該追求的是問題的結(jié)構(gòu)性困難。

      1. 拓?fù)鋸?fù)雜度:用樹寬衡量「結(jié)構(gòu)性困難」

      復(fù)雜任務(wù)中,信息分叉交織形成回環(huán)。Agent 需同時記憶多路推論,時刻驗證一致性,并隨時準(zhǔn)備整體回溯,這便是深度搜索的核心挑戰(zhàn)。為此,團隊引入圖論中的TreeWidth(樹寬)概念來刻畫這種「結(jié)構(gòu)性困難」。以下通過三種結(jié)構(gòu)問題進行對比:



      • 線性/樹狀(樹寬=1):典型鏈?zhǔn)酵评恚恍璋床烤桶鄼z索便可解答。
      • 菱形/回環(huán)(樹寬=2):出現(xiàn)分叉與重匯合,要求 Agent 維持多路假設(shè)的一致性,并在矛盾時進行回溯。
      • 強耦合子圖(樹寬≥3):形成網(wǎng)狀約束,需要將零散證據(jù)拼合成一致的整體,迫使模型進行全局驗證和回溯。

      2. 信息分散度:杜絕搜索「捷徑」

      即使問題的拓?fù)浣Y(jié)構(gòu)很復(fù)雜,如果存在一個網(wǎng)頁恰好包含所有關(guān)鍵事實,模型一次檢索就能抄走答案。為此,團隊引入「信息分散度」,即覆蓋全部關(guān)鍵證據(jù)所需的最小來源數(shù)。信息分散度越大,表明問題相關(guān)的證據(jù)片段(注:原文為“爭取片段”,疑為筆誤,此處已作修正)在互聯(lián)網(wǎng)上的分布就更加零散,這迫使 Agent 與外部環(huán)境進行更多輪次的交互從而獲取更加充分的信息。

      二、大規(guī)模「自動化」合成

      「高難度」的深度搜索問題

      基于雙約束復(fù)雜度標(biāo)準(zhǔn),我們采用 graph-to-text 流程合成數(shù)據(jù):先生成符合樹寬與分散度的推理圖,再將其翻譯為自然語言問題,并經(jīng)過多層校驗確保「高難度、可解且答案唯一」。同時,我們設(shè)計了基于「結(jié)構(gòu)化信息」與「網(wǎng)絡(luò)瀏覽」兩套圖構(gòu)造流程,以覆蓋不同搜索環(huán)境。在合成問題中,我們采取:

      • 拓?fù)浣Y(jié)構(gòu)增強:直接生成高樹寬圖的成功率較低。為此,我們引入大模型智能體對初始依賴圖進行「拓?fù)浼用堋梗ㄟ^添加環(huán)狀與交錯約束,顯著提升結(jié)構(gòu)復(fù)雜度,迭代地提高問題難度。
      • 工具增強的問題合成:在問題構(gòu)造階段,我們主動植入工具調(diào)用需求。通過將關(guān)鍵實體替換為隱含工具依賴的表達(dá)(如地名→地圖服務(wù)、文章→谷歌學(xué)術(shù)),使工具調(diào)用成為解題前置條件。



      三、多模態(tài)擴展:從「文本圖」到「多模態(tài)圖」

      在文本合成基礎(chǔ)上,REDSearcher 通過模態(tài)注入將純文本推理圖轉(zhuǎn)化為跨模態(tài)推理,使部分約束錨定在圖像中。

      • 視覺屬性錨定:用圖像描述替換節(jié)點的文本屬性,迫使模型先識別圖像再關(guān)聯(lián)知識。
      • 跨模態(tài)依賴:設(shè)置視覺不可替代約束,使圖像搜索成為推理必經(jīng)之路,而非冗余信息。
      • 視覺語義抽象:使用抽象指代替代直接命名,迫使模型識別圖像內(nèi)容后再進行搜索。
      • 模態(tài)靈活插入:視覺證據(jù)可插入推理鏈任意位置,既可早期設(shè)置瓶頸增加難度,也可后期引入驗證,實現(xiàn)難度精細(xì)控制。

      通過這套輕量級擴展,REDSearcher 可高效遷移至多模態(tài)搜索領(lǐng)域,合成高質(zhì)量的圖文深度搜索問題。

      四、「成本可控」Mid-Training 強化智能體能力

      預(yù)訓(xùn)練模型缺乏多輪交互訓(xùn)練,在長程搜索中易出現(xiàn)目標(biāo)漂移、重復(fù)搜索等問題。為此,REDSearcher 采用可擴展的兩階段 Mid-Training 框架,依次強化模型的「原子能力」與「組合能力」,實現(xiàn)從語言建模到智能體的過渡。



      原子能力建設(shè)

      針對深度搜索重要的兩個基礎(chǔ)能力優(yōu)化:

      • 意圖錨定:從含噪的觀測中精準(zhǔn)抓取關(guān)鍵證據(jù),過濾噪聲,減少幻覺與推理漂移。
      • 層次化規(guī)劃:將復(fù)雜目標(biāo)拆解為可立即求解的具體目標(biāo)與需逐步消解的不確定目標(biāo),確保規(guī)劃可落地。

      組合能力建設(shè)

      通過環(huán)境交互強化長程任務(wù)中的狀態(tài)維持與目標(biāo)一致性,全程以成本為約束:

      • 工具調(diào)用能力:通過合成工具協(xié)議與本地模擬環(huán)境交互,使模型在 ReACT 范式下掌握基礎(chǔ)與外界環(huán)境交互能力。
      • 長程交互能力:在「功能一致」模擬環(huán)境中,讓 Agent 進行長程的環(huán)境交互,強化規(guī)劃能力與目標(biāo)一致性。

      五、后訓(xùn)練持續(xù)進化:

      不只是「搜得多」,更要「搜得準(zhǔn)」

      后訓(xùn)練采取 SFT + Agentic RL 雙階段增強:

      • 在真實環(huán)境中交互,通過多重過濾獲取長程高質(zhì)量軌跡,教會模型深度搜索行為。
      • 在真實搜索環(huán)境中進一步優(yōu)化策略,關(guān)鍵設(shè)計包括:
      • 低成本驗證:構(gòu)建「功能等價」的本地模擬環(huán)境,保持 API 一致、證據(jù)完備且含噪聲,加速實驗迭代。
      • 數(shù)據(jù)質(zhì)量保障:針對合成問題中存在的答案錯誤、一題多解現(xiàn)象,采用 Agent-as-Verifier 對強化學(xué)習(xí)問題集進行校驗,避免數(shù)據(jù)污染影響訓(xùn)練穩(wěn)定性。

      團隊觀察到了效率與性能同步提升的現(xiàn)象:隨著訓(xùn)練進行,模型的平均交互輪次不斷下降,但準(zhǔn)確率持續(xù)提升。這表明 REDSearcher 并非簡單的「暴力搜索」,而是學(xué)會了更精準(zhǔn)的信息獲取策略,主動減少無效調(diào)用,形成「越訓(xùn)越聰明」的良性循環(huán)。

      六、實驗結(jié)果

      在多項深度搜索權(quán)威基準(zhǔn)上,REDSearcher 在開源模型中取得了優(yōu)異的表現(xiàn):

      • REDSearcher 在同規(guī)模開源模型中取得了 SoTA 水平,并且超過了 GPT-5-Thinking-high、Gemini-2.5-pro、Claude-4.5-sonnet 一眾閉源先進模型(*為帶有上下文管理的性能)。
      • REDSearcher-MM 在多模態(tài)搜索基準(zhǔn)中相比同規(guī)格模型取得了 SoTA 水平,并且性能超過 Gemini-2.5-pro,在部分基準(zhǔn)上取得了接近 Gemini-3-pro 的性能。





      結(jié)語

      REDSearcher 的核心在于系統(tǒng)性設(shè)計:從圖論角度定義深度搜索任務(wù)復(fù)雜度,以雙約束優(yōu)化可擴展合成數(shù)據(jù),以兩階段中間訓(xùn)練降低能力遷移成本,以高質(zhì)量軌跡合成結(jié)合強化學(xué)習(xí)實現(xiàn)持續(xù)迭代。它提供了一條可復(fù)現(xiàn)、低成本的深度搜索智能體訓(xùn)練路徑,使 AI 系統(tǒng)從靜態(tài)知識查詢走向開放環(huán)境下的自主探索、驗證與信息整合。

      作者簡介

      初征,哈工大社會計算與信息檢索中心在讀博士生,由劉銘教授和秦兵教授共同指導(dǎo),研究方向是智能體、大語言模型、復(fù)雜推理、深度搜索。

      王梟,就職于小紅書 Hi Lab,負(fù)責(zé)Search Agent,主要關(guān)注長程推理、智能體、數(shù)據(jù)合成、強化學(xué)習(xí)。

      Jack Hong,小紅書 Hi Lab 團隊算法實習(xí)生,主要研究方向是多模態(tài)大模型、Agent、計算機視覺等。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      污染源找到,負(fù)責(zé)人被處理!但河北地下水變紅的關(guān)鍵問題還未解決

      污染源找到,負(fù)責(zé)人被處理!但河北地下水變紅的關(guān)鍵問題還未解決

      社會日日鮮
      2026-04-24 07:10:17
      上海一市民通過12345“隨申拍”舉報地鐵站臺吸煙者,收到答復(fù):巡視員未發(fā)現(xiàn),若發(fā)現(xiàn)會制止,不配合會報警,市民:理解但希望加強巡視

      上海一市民通過12345“隨申拍”舉報地鐵站臺吸煙者,收到答復(fù):巡視員未發(fā)現(xiàn),若發(fā)現(xiàn)會制止,不配合會報警,市民:理解但希望加強巡視

      縱相新聞
      2026-04-25 01:04:05
      太瘆人!男子曬小區(qū)電梯圖,網(wǎng)友調(diào)侃豪華火化爐,評論區(qū)毛骨悚然

      太瘆人!男子曬小區(qū)電梯圖,網(wǎng)友調(diào)侃豪華火化爐,評論區(qū)毛骨悚然

      譚談社會
      2026-04-23 01:58:02
      “畸胎瘤殘留在咽喉”,有軟骨有脂肪!6歲男孩飲食習(xí)慣不對勁,上海醫(yī)生一查驚了……

      “畸胎瘤殘留在咽喉”,有軟骨有脂肪!6歲男孩飲食習(xí)慣不對勁,上海醫(yī)生一查驚了……

      環(huán)球網(wǎng)資訊
      2026-04-24 18:36:17
      兩屆奧運冠軍、中國羽毛球協(xié)會主席張軍“失聯(lián)”,知情人士:被紀(jì)監(jiān)部門調(diào)查,與外界失去聯(lián)系已有十余日

      兩屆奧運冠軍、中國羽毛球協(xié)會主席張軍“失聯(lián)”,知情人士:被紀(jì)監(jiān)部門調(diào)查,與外界失去聯(lián)系已有十余日

      臺州交通廣播
      2026-04-24 23:52:42
      穆杰塔巴傷情曝光,比外界想象的更嚴(yán)重,他用了一招終結(jié)斬首戰(zhàn)術(shù)

      穆杰塔巴傷情曝光,比外界想象的更嚴(yán)重,他用了一招終結(jié)斬首戰(zhàn)術(shù)

      溫讀史
      2026-04-25 01:18:21
      日本網(wǎng)友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

      日本網(wǎng)友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

      行者聊官
      2026-04-24 20:48:30
      臺球皇帝亨得利:丁俊暉碰上趙心童就打雞血,但他防守壓力太大了

      臺球皇帝亨得利:丁俊暉碰上趙心童就打雞血,但他防守壓力太大了

      楊華評論
      2026-04-25 01:56:27
      湖人極致團隊籃球:首節(jié)14球全來自助攻 八村6中6狂轟16分創(chuàng)紀(jì)錄

      湖人極致團隊籃球:首節(jié)14球全來自助攻 八村6中6狂轟16分創(chuàng)紀(jì)錄

      醉臥浮生
      2026-04-25 08:44:31
      Shams:文班亞馬因腦震蕩保護協(xié)議將缺席對陣開拓者G3

      Shams:文班亞馬因腦震蕩保護協(xié)議將缺席對陣開拓者G3

      懂球帝
      2026-04-25 09:28:35
      中央紀(jì)委國家監(jiān)委公開通報八起違反中央八項規(guī)定精神典型問題

      中央紀(jì)委國家監(jiān)委公開通報八起違反中央八項規(guī)定精神典型問題

      新華社
      2026-04-24 17:05:33
      全球最疲憊總統(tǒng)宣布退場

      全球最疲憊總統(tǒng)宣布退場

      劉瀾昌
      2026-04-25 08:43:52
      25萬噸!美國對華封鎖打響,解放軍在南海集結(jié)世界最強航母戰(zhàn)斗群

      25萬噸!美國對華封鎖打響,解放軍在南海集結(jié)世界最強航母戰(zhàn)斗群

      軍機Talk
      2026-04-24 17:32:10
      “停火”比開戰(zhàn)更可怕:伊朗拋出的“對等恐怖”清單令全世界發(fā)抖

      “停火”比開戰(zhàn)更可怕:伊朗拋出的“對等恐怖”清單令全世界發(fā)抖

      映象觀察
      2026-04-24 10:21:35
      辟謠!利拉德通過身邊人發(fā)聲:不可能在季后賽復(fù)出 目標(biāo)下賽季

      辟謠!利拉德通過身邊人發(fā)聲:不可能在季后賽復(fù)出 目標(biāo)下賽季

      醉臥浮生
      2026-04-25 00:01:14
      北京驚現(xiàn)"假Costco":注冊資本1億未實繳,年卡比正版還貴

      北京驚現(xiàn)"假Costco":注冊資本1億未實繳,年卡比正版還貴

      小星球探索
      2026-04-24 14:45:47
      6億成本拖9年,《美人魚2》難產(chǎn),華誼申請破產(chǎn),周星馳也很無奈

      6億成本拖9年,《美人魚2》難產(chǎn),華誼申請破產(chǎn),周星馳也很無奈

      八卦南風(fēng)
      2026-04-24 17:50:24
      京東給年輕人造了一輛轎跑,售價低至12.7萬元

      京東給年輕人造了一輛轎跑,售價低至12.7萬元

      財天COVER
      2026-04-24 10:44:40
      大齡剩女可以破防到什么程度?發(fā)朋友圈且通知媒人,還向家人告狀

      大齡剩女可以破防到什么程度?發(fā)朋友圈且通知媒人,還向家人告狀

      丫頭舫
      2026-04-24 20:40:08
      4-4!428-428!趙心童單桿破百+絕殺黑球反超 丁俊暉1分逆轉(zhuǎn)

      4-4!428-428!趙心童單桿破百+絕殺黑球反超 丁俊暉1分逆轉(zhuǎn)

      念洲
      2026-04-25 06:11:39
      2026-04-25 10:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12852文章數(shù) 142635關(guān)注度
      往期回顧 全部

      科技要聞

      Anthropic剛拿亞馬遜250億美元,又拿谷歌400億

      頭條要聞

      中學(xué)印刷廠廠長被指侵吞324萬利潤 本人堅稱正當(dāng)?shù)美?/h3>

      頭條要聞

      中學(xué)印刷廠廠長被指侵吞324萬利潤 本人堅稱正當(dāng)?shù)美?/h3>

      體育要聞

      上海男籃23連勝+主場全勝 姚明之后最強一季

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經(jīng)要聞

      別高估英偉達(dá),別低估DeepSeek

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態(tài)度原創(chuàng)

      家居
      游戲
      時尚
      旅游
      公開課

      家居要聞

      自然肌理 溫潤美學(xué)

      社恐必玩!IGN為這款新作打7分:開局就被黑人救

      朱珠到底為什么接這部劇?

      旅游要聞

      文旅觀察丨升級體驗,“好客山東”把高質(zhì)量落地到游客日常

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 91日韩在线| 无码精品国产va在线观看| 日韩精品中文字幕无码一区| 美女91美女视频网站| 亚洲一区在线成人av| av中文字幕国产精品| 无码任你躁久久久久久久| 日本三级欧美三级人妇视频黑白配| 少妇高潮太爽了在线视频| 7m精品福利视频导航| 欧美成人一区二免费视频| 国语精品一区二区三区| 亚洲不卡视频| 九九热免费在线视频| 天堂8在线天堂资源bt| 双牌县| 亚洲日韩一区二区| www.com黄色| 国精产品一区一区三区有限| 少妇愉情理伦片丰满丰满午夜| 国产XXXX| 色老板精品视频在线观看| 国产va在线播放| 美日韩在线视频一区二区三区| 久久婷婷丁香五月综合五| 国产H片无码不卡在线视频| 色欲久久久天天天综合网| 国产又粗又猛又爽又黄AV| 亚洲第一成人在线| 亚洲AV日韩AV激情亚洲| av中文字幕在线二区| 国产人妻人伦精品婷婷| 亚洲AV秘 无码二区在线| 一进一出抽搐gif| 老头老太性行交视频| 亚洲色无码国产精品网站可下载| jizzjizz韩国| 免费国产高清在线精品一区| 国产成人精品18| 少妇高潮喷水在线观看| julia无码中文字幕一区|