<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      阿里發布信息檢索Agent,可自主上網查資料,GAIA基準超越GPT-4o

      0
      分享至

      不圓 發自 凹非寺
      量子位 | 公眾號 QbitAI

      Agent能“看懂網頁”,像人類一樣上網

      阿里發布WebDancer,就像它的名字一樣,為“網絡舞臺”而生。

      只要輸入指令,它就可以幫你上網搜索、做攻略,實現自主信息檢索代理和類似深度研究模型的推理。

      傳統模型只能按固定流程思考,而WebDancer作為一個端到端的自主信息搜索智能體,具備多步推理、工具使用和泛化能力。



      WebDancer在GAIA和WebWalkerQA上分別取得了61.1%和54.6%的Pass@3分數,優于基線模型和部分開源框架。

      模型和方法均已開源,網友直呼想試:



      WebDancer的秘密武器

      不同于其它的推理問答模型,WebDancer要像人類一樣思考、理解并操作,可不是一件簡單的事情。

      使用GAIA、WebWalkerQA和日常使用情況對WebDancer進行演示,可以看到,WebDancer能夠執行多步驟和復雜推理的長期任務,例如網頁遍歷、信息搜索和問答。

      它的“秘密武器”是一種四階段訓練范式,包括瀏覽數據構建、軌跡采樣、針對有效冷啟動的監督微調以及用于改進泛化能力的強化學習。

      阿里開源了這個訓練框架,使除了WebDancer以外的智能代理也能夠自主獲取自主搜索和推理技能:

      1、瀏覽數據構建



      這一步的目標是創建覆蓋真實的網頁環境、需要多步交互的復雜QA對。

      可以分為兩個網絡數據生成流程,如上圖所示。

      在CRAWLQA中,需要先收集知識性網站(ArXiv、GitHub、Wiki等)的主URL,然后在主頁上系統地點擊和收集通過子鏈接可訪問的子頁面,模擬人類行為。

      使用預定義規則,就可以利用GPT4o根據收集到的信息生成QA對(1.0版)了。

      對于E2HQA(Easy-to-Hard QA)來說,將初始的簡單問題Q1通過實體檢索→信息擴展→問題重構的步驟,使任務在復雜性上逐步擴展,從簡單的實例到更具挑戰性的實例。

      依然是使用GPT-4o重寫問題,直到迭代達到n,QA對足夠成熟。

      2、軌跡采樣



      這一步要從QA對中生成高質量的思維-動作-觀察(Thought-Action-Observation)執行軌跡。

      WebDancer的代理框架基于ReAct,這是語言代理最流行的方法,一個ReAct軌跡由多個思維-動作-觀察輪次組成:

      在思維階段,模型會根據輸入生成推理鏈,然后在動作階段將參數為結構化JSON,最后在觀察階段返回結果(如網頁摘要或搜索片段)

      思維階段生成的思維鏈對智能體執行十分重要,WebDancer采用了雙路徑采樣的方法,可分為短思維鏈和長思維鏈兩條路徑:

      • 短思維鏈適用于單步驟任務,直接使用GPT-4o生成簡潔軌跡;
      • 長思維鏈適用于多步驟任務,使用專用推理模型(LRMs、QwQ-Plus)生成帶長鏈推理的軌跡。



      因為LRM、QwQ-Plus在訓練過程中沒有接觸過多步推理輸入,在進一步推理時,WebDancer排除了之前的思維,但它們作為有價值的監督信號保留在了生成的軌跡中。

      隨后,WebDancer采用了一個基于漏斗的三階段軌跡過濾框架,僅保留滿足以下三個標準的軌跡:信息非冗余、目標一致性以及邏輯推理準確性。

      3、有監督微調



      在獲得ReAct格式的優質軌跡后,就可以將其無縫整合到智能體的有監督微調(Supervised Fine-Tuning,SFT)訓練階段,這個步驟可以教會模型基礎的任務分解與工具調用能力,同時盡可能保留其原有的推理能力。

      在SFT階段,要先將軌跡轉換為標記化輸入,明確分隔符,然后計算Thought和Action部分的損失(忽略Observation噪聲),損失公式如下:



      其中tc

      是任務上下文,



      為完整的智能體執行軌跡,每個



      代表思考/行動/觀察,



      過濾掉對應外部反饋的標記,確保損失是在代理的自主決策步驟上計算的。

      SFT階段為后續的RL階段提供了強大的初始化。

      4、強化學習

      這一步的目標是優化代理在真實網絡環境中的決策能力和泛化能力。

      在SFT階段的基礎上,本階段采用解耦裁剪動態采樣策略優化算法(Decoupled Clip and Dynamic Sampling Policy Optimization,DAPO)來精調策略模型。

      DAPO是一種基于獎勵模型R的策略優化算法,其工作原理如下:

      首先,對于每個包含部分答案



      的階段軌跡



      ,算法生成一組候選執行序列



      。通過最大化以下目標更新策略:



      隨后,過采樣并過濾準確率為1或0的提示(prompts),確保智能體聚焦于高質量信號的學習。

      最后,采用新舊策略的概率比替代固定KL懲罰項:





      獎勵設計在RL訓練過程中起著至關重要的作用,WebDancer的獎勵機制主要由兩種類型的獎勵組成,分別為格式獎勵和答案獎勵,權重分別為0.1和0.9。

      最終獎勵函數為:

      有效性分析



      在GAIA和WebWalkerQA這兩個成熟的基準數據集上測試WebDancer,結果顯示,WebDancer在GAIA上達到46.6%的平均準確率,WebWalkerQA上達到43.2%,優于基線模型和部分開源智能體框架。

      可以看到,不具備代理能力的框架(No Agency)在GAIA和WebWalkerQA基準測試中均表現不佳,這突出了主動信息搜索和代理決策對于這些任務的重要性。

      閉源代理系統OpenAI DR通過端到端強化學習訓練實現了最高分,在開源框架中,基于原生強推理模型(如QwQ-32B)構建的代理方法始終優于非代理對應方法,證明了在代理構建中利用推理專用模型的有效性。



      在兩個更具挑戰性的數據集BrowseComp(英文)和BrowseComp-zh(中文)上測試WebDancer,均表現出持續強勁的性能,突顯了其在處理困難推理和信息搜索任務中的魯棒性和有效性。



      鑒于智能體環境的動態性和復雜性,以及GAIA測試集相對較小且變化較大的特點,對Pass@3和Cons@3進行細粒度分析。

      值得注意的是,經過RL后的Pass@1性能與SFT基線的Pass@3相當,表明RL能夠更有效地采樣正確響應。

      對于語言推理模型(LRMs),雖然經過RL后Pass@1、Pass@3或Cons@3沒有顯著提升,但在一致性方面有明顯的改善;這可能是過長軌跡導致的稀疏獎勵信號所致。

      參考鏈接:
      https://x.com/_akhaliq/status/1937997314737553873
      論文:https://arxiv.org/abs/2505.22648
      github:https://github.com/Alibaba-NLP/WebAgent/tree/main/WebDancer
      模型:https://huggingface.co/Alibaba-NLP/WebDancer-32B

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “中國人滾出蒙古!”為何外蒙古對中國人充滿敵意

      “中國人滾出蒙古!”為何外蒙古對中國人充滿敵意

      南權先生
      2025-09-16 10:02:18
      趙本山兒子請客吃砂鍋,趙一楠染一頭黃發,宋曉峰喝到臉泛紅

      趙本山兒子請客吃砂鍋,趙一楠染一頭黃發,宋曉峰喝到臉泛紅

      李橑在北漂
      2025-12-08 08:22:30
      巴西對華態度極速大轉變!前腳剛宣布加稅,后腳就光速撤銷

      巴西對華態度極速大轉變!前腳剛宣布加稅,后腳就光速撤銷

      南權先生
      2025-12-08 17:15:20
      傳奇終將謝幕!本賽季結束,這8名球星大概率退役,7個曾是全明星

      傳奇終將謝幕!本賽季結束,這8名球星大概率退役,7個曾是全明星

      老侃侃球
      2025-12-08 04:00:03
      馮唐:只要身體還能撐得住,你就能等到下一個天命

      馮唐:只要身體還能撐得住,你就能等到下一個天命

      杏花煙雨江南的碧園
      2025-12-02 15:10:03
      駁外界不睦傳聞,鄭麗文、盧秀燕同臺,三度擁抱展現好交情

      駁外界不睦傳聞,鄭麗文、盧秀燕同臺,三度擁抱展現好交情

      海峽導報社
      2025-12-07 16:16:17
      日本逮捕美公民,特朗普發出通牒,日本迎來“亡國”內閣?

      日本逮捕美公民,特朗普發出通牒,日本迎來“亡國”內閣?

      井普椿的獨白
      2025-12-08 17:17:12
      羅永浩回應其播客節目廣告過多:免費聽就別那么多話了

      羅永浩回應其播客節目廣告過多:免費聽就別那么多話了

      界面新聞
      2025-12-08 10:48:38
      一家三口確診肝癌!轉告家人:冰箱久放的5種食物,是癌癥誘因

      一家三口確診肝癌!轉告家人:冰箱久放的5種食物,是癌癥誘因

      蜉蝣說
      2025-11-30 08:25:09
      重慶談判時,蔣介石提出讓毛澤東當省長,毛主席問:去哪個省?

      重慶談判時,蔣介石提出讓毛澤東當省長,毛主席問:去哪個省?

      老范談史
      2025-11-28 10:34:33
      日本內閣成員資產曝光:高市早苗排名意外,金額是……

      日本內閣成員資產曝光:高市早苗排名意外,金額是……

      鳳凰網財經
      2025-12-08 13:26:06
      俄烏持續3年多,大帝是否會步尼古拉后塵?缺個背后捅刀的奧地利

      俄烏持續3年多,大帝是否會步尼古拉后塵?缺個背后捅刀的奧地利

      房產衫哥
      2025-12-02 07:36:50
      中德會面,德外長承諾:堅持一個中國,但當面提出了2個要求

      中德會面,德外長承諾:堅持一個中國,但當面提出了2個要求

      李健政觀察
      2025-12-08 15:48:26
      曾風靡一時,又突然消失的7件家電:科技進步太快,難怪被淘汰

      曾風靡一時,又突然消失的7件家電:科技進步太快,難怪被淘汰

      小柱解說游戲
      2025-12-07 10:04:13
      斯洛特贏了!曝薩拉赫遭利物浦封殺:無緣歐冠 替代者浮現

      斯洛特贏了!曝薩拉赫遭利物浦封殺:無緣歐冠 替代者浮現

      球事百科吖
      2025-12-08 16:47:10
      神來之筆!賈躍亭:法拉第未來FX Super One首批車將于21日下線

      神來之筆!賈躍亭:法拉第未來FX Super One首批車將于21日下線

      火山詩話
      2025-12-08 09:56:11
      中國跨境匯款新規:1000美元以上需身份核驗,拆單匯款風險升級

      中國跨境匯款新規:1000美元以上需身份核驗,拆單匯款風險升級

      東京在線
      2025-12-07 22:17:59
      全體退休人員,12月養老金到賬后,千萬別急著花!先做這3件事

      全體退休人員,12月養老金到賬后,千萬別急著花!先做這3件事

      李博世財經
      2025-12-08 10:49:40
      冬天,打死都不要買的5種蔬菜,不僅沒營養還傷身體,菜販都不吃

      冬天,打死都不要買的5種蔬菜,不僅沒營養還傷身體,菜販都不吃

      阿龍美食記
      2025-12-08 14:57:54
      雙胞胎認親反目后續:爸爸簽永不尋找保證書,哥哥棄房退親但原諒

      雙胞胎認親反目后續:爸爸簽永不尋找保證書,哥哥棄房退親但原諒

      鋭娛之樂
      2025-12-08 08:19:16
      2025-12-08 18:12:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11824文章數 176340關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      泰柬邊境近日再起爭端 阿努廷、洪森分別發聲

      頭條要聞

      泰柬邊境近日再起爭端 阿努廷、洪森分別發聲

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      教育
      時尚
      本地
      藝術
      軍事航空

      教育要聞

      是不是只有我在內耗?補習班,到底該不該跟別人分享?

      除了大衣,今年最火的外套一定就是它了!

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      藝術要聞

      一棵樹的力量

      軍事要聞

      柬泰沖突細節披露 洪森要求部隊“克制”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 能把下面看湿的视频| 97在线视频人妻无码| wwwjizzjizzcom| 狂野欧美激情性xxxx| 四虎永久地址www成人| 久热大香蕉| 狠狠婷婷综合久久久久久| 仁怀市| 福利导航在线视频| 久久综合亚洲色一区二区三区| 美女综合网| 亚洲高清aⅴ日本欧美视频 | 天堂久久蜜桃一区二区三区| 久久精品高清一区二区三区 | 亚洲高清免费在线观看| 祥云县| 露脸国产精品自产拍在线观看| 国产女精品视频网站免费| 国产AV无码专区亚洲AWWW| 国产精品18| 一本色道久久88亚州精品综合| 韩国三级+mp4| 亚洲一区二区三区影院| 日韩中文字幕免费在线观看 | 午夜福利92国语| 日本韩国一级| 国产蜜臀av在线一区尤物| 亚洲偷| 国产乱码一区二区三区| 国产xxx| 中国女人做爰A片| 玩弄放荡人妻少妇系列视频| 97人妻中文字幕精品| 秋霞在线观看秋| 波多野结衣第一页| www.男人的天堂| 库车县| 久久青青草原国产毛片| 在线看片a| 婷婷伊人綜合中文字幕小说| 巧家县|