<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      螞蟻集團(tuán)全模態(tài)代碼算法團(tuán)隊(duì)自研多模態(tài)Web GUI Agent:OpAgent

      0
      分享至

      為應(yīng)對(duì)真實(shí) Web 環(huán)境的非結(jié)構(gòu)化復(fù)雜性、時(shí)序不穩(wěn)定性與交互隱式邏輯等挑戰(zhàn), 螞蟻集團(tuán)全模態(tài)代碼算法團(tuán)隊(duì) 提出了一套結(jié)合了多任務(wù)微調(diào)、在線強(qiáng)化學(xué)習(xí)與模塊化協(xié)作的綜合解決方案: OpAgent。

      OpAgent 通過(guò)層次化多任務(wù)微調(diào) (MT-SFT) 構(gòu)建具備規(guī)劃、行動(dòng)和定位能力的視覺(jué)語(yǔ)言模型(VLM)基座;繼而,在自建的在線交互環(huán)境中,利用創(chuàng)新的混合獎(jiǎng)勵(lì)機(jī)制進(jìn)行在線強(qiáng)化學(xué)習(xí)(Online RL) ,有效緩解了離線訓(xùn)練帶來(lái)的分布偏移問(wèn)題;最后,通過(guò)一個(gè)包含規(guī)劃器、定位器、反思器和總結(jié)器的模塊化智能體架構(gòu),實(shí)現(xiàn)對(duì)復(fù)雜長(zhǎng)時(shí)程任務(wù)的魯棒執(zhí)行與自我修正。

      在權(quán)威 Web 智能體評(píng)測(cè)基準(zhǔn) WebArena 上,OpAgent 以 71.6% 的成功率于 2026 年 1 月取得了榜單第一的 SOTA 成績(jī)。

      GitHub:https://github.com/codefuse-ai/OpAgent

      Hugging Face:https://huggingface.co/codefuse-ai/OpAgent

      ModelScope:https://modelscope.cn/models/codefuse-ai/OpAgent-32B

      Technical Report:https://github.com/codefuse-ai/OpAgent/blob/main/technical_report/OpAgent.pdf

      一、背景與挑戰(zhàn)

      自主Web智能體旨在模擬人類在圖形用戶界面( GUI )上執(zhí)行任務(wù),其在自動(dòng)化測(cè)試、數(shù)據(jù)采集、智能助理等領(lǐng)域具有廣闊應(yīng)用前景。然而,相較于 PC 或移動(dòng)端環(huán)境,Web 環(huán)境呈現(xiàn)出獨(dú)特的挑戰(zhàn):


      • 非結(jié)構(gòu)化復(fù)雜性:網(wǎng)頁(yè)的 DOM 樹(shù)結(jié)構(gòu)龐大且充滿噪聲,傳統(tǒng)基于 HTML 或 DOM 解析的方法難以有效提取關(guān)鍵信息,容易被冗余內(nèi)容干擾。

      • 時(shí)序不穩(wěn)定性:網(wǎng)頁(yè)內(nèi)容是動(dòng)態(tài)的,異步加載、實(shí)時(shí)更新和臨時(shí)性元素(如彈窗)使得環(huán)境狀態(tài)頻繁變化。依賴靜態(tài)離線數(shù)據(jù)集訓(xùn)練的模型在部署于真實(shí)動(dòng)態(tài)環(huán)境時(shí),會(huì)面臨嚴(yán)重的分布偏移( Distributional Shift )問(wèn)題。

      • 交互的隱式邏輯:許多 Web 交互(如懸停觸發(fā)菜單)依賴實(shí)時(shí)的視覺(jué)反饋來(lái)確認(rèn)操作的成功與否,這種閉環(huán)交互邏輯是離線學(xué)習(xí)范式無(wú)法有效建模的。

      為應(yīng)對(duì)上述挑戰(zhàn),我們?cè)O(shè)計(jì)并實(shí)現(xiàn)了 OpAgent 框架,其核心在于從依賴靜態(tài)數(shù)據(jù)向與真實(shí)環(huán)境動(dòng)態(tài)交互的范式轉(zhuǎn)變。

      二、OpAgent技術(shù)框架

      OpAgent 的整體設(shè)計(jì)遵循一個(gè)分階段的優(yōu)化路徑:首先通過(guò)多任務(wù)監(jiān)督微調(diào)( MT-SFT )為模型注入基礎(chǔ)的 Web 交互能力,然后通過(guò)在線強(qiáng)化學(xué)習(xí)( Online RL )在真實(shí)環(huán)境中對(duì)策略進(jìn)行迭代優(yōu)化,最終在推理階段利用模塊化智能體架構(gòu)( Agentic Architecture )執(zhí)行復(fù)雜任務(wù)。


      2.1 層次化多任務(wù)微調(diào) (Hierarchical Multi-Task Fine-tuning)

      為構(gòu)建一個(gè)強(qiáng)大的視覺(jué)語(yǔ)言模型( VLM )基座,我們首先摒棄了對(duì)脆弱的 HTML 文本解析的依賴,轉(zhuǎn)而讓模型直接從視覺(jué)截圖( Screenshot )中感知和理解頁(yè)面布局。我們將 Web 智能體的基礎(chǔ)能力分解為三個(gè)維度:

      • 規(guī)劃 ( Planning ):預(yù)測(cè)交互行為將導(dǎo)致的頁(yè)面狀態(tài)變遷。

      • 行動(dòng) ( Acting ):基于當(dāng)前頁(yè)面狀態(tài),決策下一步所需執(zhí)行的操作。

      • 定位 ( Grounding ):在視覺(jué)上精確定位執(zhí)行操作的UI元素坐標(biāo)。

      我們整合了包括 Mind2Web 、Aguvis 、UGround 在內(nèi)的多個(gè)領(lǐng)域數(shù)據(jù)集,分別對(duì)上述三種能力進(jìn)行訓(xùn)練。為解決不同數(shù)據(jù)集樣本量級(jí)差異巨大(例如,百萬(wàn)級(jí) vs. 千級(jí))可能導(dǎo)致的梯度主導(dǎo)問(wèn)題,我們引入了基于有效樣本數(shù) (Effective Number of Samples)的加權(quán)策略,動(dòng)態(tài)調(diào)整各任務(wù)在訓(xùn)練中的損失權(quán)重,確保模型在所有基礎(chǔ)能力上得到均衡發(fā)展。


      2.2 真實(shí)環(huán)境在線強(qiáng)化學(xué)習(xí) ( Online Agentic RL in the Wild )

      在線學(xué)習(xí)是解決分布偏移問(wèn)題的關(guān)鍵。為此,我們構(gòu)建了一套支持在真實(shí) Web 環(huán)境中進(jìn)行大規(guī)模在線強(qiáng)化學(xué)習(xí)的系統(tǒng)。

      1. 四層RL基礎(chǔ)設(shè)施:該系統(tǒng)分為決策層、執(zhí)行層、基礎(chǔ)設(shè)施層和環(huán)境層。VLM 代理在決策層生成動(dòng)作,通過(guò) Playwright 引擎在執(zhí)行層被解析并分發(fā)至分布式瀏覽器集群,與環(huán)境層中的真實(shí)網(wǎng)站(包括自部署的 WebArena 環(huán)境)進(jìn)行交互,最終將包含截圖和 DOM 的觀測(cè)數(shù)據(jù)反饋回決策層,形成一個(gè)完整的閉環(huán)交互與數(shù)據(jù)采集流程。


      2. 混合獎(jiǎng)勵(lì)機(jī)制 ( Hybrid Reward Mechanism ):在沒(méi)有真值( Ground-truth )軌跡的真實(shí)環(huán)境中,如何為智能體的探索行為提供有效監(jiān)督信號(hào)至關(guān)重要。我們?cè)O(shè)計(jì)了一種混合獎(jiǎng)勵(lì)機(jī)制:

      • 基于規(guī)則的決策樹(shù) ( RDT ) 進(jìn)行過(guò)程監(jiān)督:為智能體的每一步提供即時(shí)反饋。該機(jī)制通過(guò)一系列規(guī)則判斷動(dòng)作的有效性,如是否產(chǎn)生頁(yè)面視覺(jué)變化、是否點(diǎn)擊在可交互元素上等,對(duì)無(wú)效或冗余的動(dòng)作給予懲罰。

      • 基于 VLM 的 WebJudge 進(jìn)行結(jié)果評(píng)估:在一條軌跡( trajectory )結(jié)束后,引入一個(gè)強(qiáng)大的 VLM 評(píng)估器 WebJudge ,從任務(wù)完成度、動(dòng)作有效性和路徑效率三個(gè)維度對(duì)整個(gè)軌跡進(jìn)行綜合評(píng)分,作為最終的稀疏獎(jiǎng)勵(lì)信號(hào)。

      這種結(jié)合了稠密過(guò)程獎(jiǎng)勵(lì)和稀疏結(jié)果獎(jiǎng)勵(lì)的機(jī)制,為模型在真實(shí)環(huán)境中的策略優(yōu)化提供了穩(wěn)定且全面的監(jiān)督。


      2.3 Operator Agentic 模塊化智能體架構(gòu)

      對(duì)于長(zhǎng)時(shí)程、多步驟的復(fù)雜任務(wù),單一模型的決策能力有限。我們因此設(shè)計(jì)了一個(gè)包含四個(gè)專業(yè)角色的模塊化協(xié)作架構(gòu),以提升任務(wù)執(zhí)行的魯棒性和成功率。

      模塊

      核心職責(zé)

      主要輸出

      Planner

      規(guī)劃器

      任務(wù)分解與策略制定

      語(yǔ)義化的步驟指令

      Grounder

      定位器

      將語(yǔ)義指令映射到UI坐標(biāo)

      標(biāo)準(zhǔn)化的工具調(diào)用(Tool Call)

      Reflector

      反思器

      驗(yàn)證動(dòng)作效果,監(jiān)控任務(wù)進(jìn)展

      反思信號(hào)與中間筆記

      Summarizer

      總結(jié)器

      綜合軌跡信息,生成最終答案

      整合后的最終答案

      該架構(gòu)通過(guò)一個(gè)“規(guī)劃-執(zhí)行-反思”的迭代循環(huán)運(yùn)作:Planner 根據(jù)全局目標(biāo)和當(dāng)前狀態(tài)生成高層指令,Grounder 將其翻譯為具體動(dòng)作并執(zhí)行,Reflector 在動(dòng)作后評(píng)估狀態(tài)變化并判斷是否需要重新規(guī)劃。這種機(jī)制實(shí)現(xiàn)了有效的錯(cuò)誤檢測(cè)與自我修正。


      三、實(shí)驗(yàn)與結(jié)果

      我們?cè)诙鄠€(gè)基準(zhǔn)上對(duì) OpAgent 框架的各組件進(jìn)行了充分評(píng)估。

      單模型性能:

      經(jīng)過(guò)在線RL優(yōu)化的單模型( Qwen3-VL-32B-Thinking + RL-HybridReward-Zero )在 WebArena 上取得了 38.1% 的成功率( Pass@5 ),顯著超越了原始基線模型( 27.4% )以及其他采用類似 Test-Time Training ( TTT ) 策略的方法。


      Pass@K 分析:

      對(duì)比 RL 優(yōu)化前后的模型在不同 Pass@K 下的表現(xiàn),可以看到隨著嘗試次數(shù) K 的增加,RL優(yōu)化后模型的性能優(yōu)勢(shì)愈發(fā)明顯,Pass@5 的絕對(duì)提升達(dá)到 10.66% 。這表明在線強(qiáng)化學(xué)習(xí)顯著增強(qiáng)了模型決策的魯棒性。


      Agentic Architecture 性能:

      最終,集成了所有優(yōu)化的 OpAgent 整體框架(使用 Gemini-3-Pro 作為部分模塊后端,Qwen2.5-VL-MFT 作為 Grounder ),在 WebArena 上達(dá)到了 71.6% 的成功率,刷新了該基準(zhǔn)的 SOTA 記錄,并登頂排行榜。


      四、總結(jié)與展望

      本文介紹了螞蟻全模態(tài)代碼算法團(tuán)隊(duì)在 Web 智能體方向的最新研究成果 OpAgent 。通過(guò)在多任務(wù)微調(diào)、真實(shí)環(huán)境在線強(qiáng)化學(xué)習(xí)以及模塊化智能體架構(gòu)等方面的探索,我們顯著提升了 Web 智能體在復(fù)雜動(dòng)態(tài)環(huán)境中的任務(wù)執(zhí)行能力,并在 WebArena 基準(zhǔn)上取得了 SOTA 性能。

      當(dāng)前工作在實(shí)現(xiàn)高性能的同時(shí),仍一定程度上依賴于精細(xì)的提示工程和多智能體的復(fù)雜編排。未來(lái)的研究方向?qū)ㄌ嵘龁文P蛢?nèi)在的探索與泛化能力,以期減少對(duì)復(fù)雜框架的依賴,實(shí)現(xiàn)更加通用和高效的自主智能體。

      我們是螞蟻集團(tuán)智能平臺(tái)工程的全模態(tài)代碼算法團(tuán)隊(duì)。團(tuán)隊(duì)成立 3 年以來(lái),在 ACL、EMNLP、ICLR、NeurIPS、ICML 等頂級(jí)會(huì)議發(fā)表論文 20 余篇,兩次獲得螞蟻技術(shù)最高獎(jiǎng) T-Star ,1 次螞蟻集團(tuán)最高獎(jiǎng) SuperMA ,我們研發(fā)的 CodeFuse 項(xiàng)目連續(xù)兩年蟬聯(lián)學(xué)術(shù)開(kāi)源先鋒項(xiàng)目。

      團(tuán)隊(duì)常年招聘研究型實(shí)習(xí)生,有志于 NLP、大模型、多模態(tài)、圖神經(jīng)網(wǎng)絡(luò)的同學(xué)歡迎聯(lián)系 hyu.hugo@antgroup.com,期待與你一起,探索AI的無(wú)限可能!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      剛剛,A股新“股王”誕生!貴州茅臺(tái)大跌!

      剛剛,A股新“股王”誕生!貴州茅臺(tái)大跌!

      證券時(shí)報(bào)e公司
      2026-04-17 10:24:58
      悲催!42歲男子遠(yuǎn)嫁浙江做上門(mén)女婿,在罹患肺癌晚期后獨(dú)自返鄉(xiāng)…

      悲催!42歲男子遠(yuǎn)嫁浙江做上門(mén)女婿,在罹患肺癌晚期后獨(dú)自返鄉(xiāng)…

      火山詩(shī)話
      2026-04-16 19:19:26
      民進(jìn)黨,極有可能在下一屆臺(tái)灣地區(qū)選舉后,成為長(zhǎng)期一家獨(dú)大政黨

      民進(jìn)黨,極有可能在下一屆臺(tái)灣地區(qū)選舉后,成為長(zhǎng)期一家獨(dú)大政黨

      李橑在北漂
      2026-04-02 10:22:26
      廣汽豐田回應(yīng)車主愛(ài)車被強(qiáng)開(kāi)車門(mén)潑水:經(jīng)檢測(cè)三電系統(tǒng)及電路一切正常

      廣汽豐田回應(yīng)車主愛(ài)車被強(qiáng)開(kāi)車門(mén)潑水:經(jīng)檢測(cè)三電系統(tǒng)及電路一切正常

      侃故事的阿慶
      2026-04-17 08:14:25
      重大讓步!伊朗松口妥協(xié),同意開(kāi)放半數(shù)海峽,濃縮鈾問(wèn)題愿意談判

      重大讓步!伊朗松口妥協(xié),同意開(kāi)放半數(shù)海峽,濃縮鈾問(wèn)題愿意談判

      安珈使者啊
      2026-04-17 10:00:02
      鄭麗文這回麻煩大了!

      鄭麗文這回麻煩大了!

      小熊看國(guó)際
      2026-04-16 11:11:58
      何潤(rùn)東談張凌赫被評(píng)價(jià)“粉底液將軍”:不一樣的戲種、類型,是完全不能比較的;稱自己翻紅后接到很多工作邀約,還沒(méi)時(shí)間看《逐玉》

      何潤(rùn)東談張凌赫被評(píng)價(jià)“粉底液將軍”:不一樣的戲種、類型,是完全不能比較的;稱自己翻紅后接到很多工作邀約,還沒(méi)時(shí)間看《逐玉》

      魯中晨報(bào)
      2026-04-17 09:24:06
      結(jié)賬時(shí)很貴就大大方方的不要!網(wǎng)友:后半夜都得氣的從床上坐起來(lái)

      結(jié)賬時(shí)很貴就大大方方的不要!網(wǎng)友:后半夜都得氣的從床上坐起來(lái)

      另子維愛(ài)讀史
      2026-03-04 20:16:58
      巴拿馬求饒也沒(méi)用,中國(guó)再出手!要求兩家巨頭立刻退出港口運(yùn)營(yíng)

      巴拿馬求饒也沒(méi)用,中國(guó)再出手!要求兩家巨頭立刻退出港口運(yùn)營(yíng)

      小影的娛樂(lè)
      2026-04-17 09:30:24
      伊朗進(jìn)入無(wú)核時(shí)代,三方默契達(dá)共識(shí),450公斤濃縮鈾做“獻(xiàn)禮”?

      伊朗進(jìn)入無(wú)核時(shí)代,三方默契達(dá)共識(shí),450公斤濃縮鈾做“獻(xiàn)禮”?

      小小科普員
      2026-04-16 18:08:20
      波神:庫(kù)里太不真實(shí)了,無(wú)論落后多少分他都能讓球隊(duì)保持威脅

      波神:庫(kù)里太不真實(shí)了,無(wú)論落后多少分他都能讓球隊(duì)保持威脅

      懂球帝
      2026-04-16 17:10:26
      11年前優(yōu)衣庫(kù)男女主現(xiàn)狀曝光,他們還在一起生了兩個(gè)孩子

      11年前優(yōu)衣庫(kù)男女主現(xiàn)狀曝光,他們還在一起生了兩個(gè)孩子

      半糖甜而不膩
      2026-04-06 12:09:15
      收手吧釋小龍!新片亂成一鍋粥,有謝苗的心,卻沒(méi)謝苗的命

      收手吧釋小龍!新片亂成一鍋粥,有謝苗的心,卻沒(méi)謝苗的命

      得得電影
      2026-04-15 09:48:34
      坐后座不系安全帶,北京一市民曬出罰單!

      坐后座不系安全帶,北京一市民曬出罰單!

      家住東西城
      2026-04-16 19:32:29
      從1976年19人赴美學(xué)習(xí)開(kāi)始,臺(tái)灣半導(dǎo)體產(chǎn)業(yè)如何一步步登上世界之巔

      從1976年19人赴美學(xué)習(xí)開(kāi)始,臺(tái)灣半導(dǎo)體產(chǎn)業(yè)如何一步步登上世界之巔

      知識(shí)圈
      2026-04-16 10:53:50
      李富真前夫敗光141億分手費(fèi)、獲刑1年!姐姐的美商比選男人的眼光強(qiáng)多了!

      李富真前夫敗光141億分手費(fèi)、獲刑1年!姐姐的美商比選男人的眼光強(qiáng)多了!

      草莓解說(shuō)體育
      2026-04-17 00:21:04
      只有住過(guò)挪威才懂:中國(guó)人眼里的大方,在當(dāng)?shù)厝丝磥?lái)竟?jié)M是困惑

      只有住過(guò)挪威才懂:中國(guó)人眼里的大方,在當(dāng)?shù)厝丝磥?lái)竟?jié)M是困惑

      復(fù)轉(zhuǎn)這些年
      2026-04-13 12:39:01
      莫氏雞煲的風(fēng),終究吹到了香港

      莫氏雞煲的風(fēng),終究吹到了香港

      港你知
      2026-04-16 22:03:40
      蔣介石孫子召開(kāi)發(fā)布會(huì),提出“兩蔣”移靈大陸,2句話讓世人唏噓

      蔣介石孫子召開(kāi)發(fā)布會(huì),提出“兩蔣”移靈大陸,2句話讓世人唏噓

      老謝談史
      2026-03-18 18:33:35
      隨著東契奇坎寧安申訴成功!聯(lián)盟最佳一陣基本確定,華子最大輸家

      隨著東契奇坎寧安申訴成功!聯(lián)盟最佳一陣基本確定,華子最大輸家

      你的籃球頻道
      2026-04-17 07:42:31
      2026-04-17 11:00:49
      開(kāi)源中國(guó) incentive-icons
      開(kāi)源中國(guó)
      每天為開(kāi)發(fā)者推送最新技術(shù)資訊
      7694文章數(shù) 34534關(guān)注度
      往期回顧 全部

      科技要聞

      Anthropic推出Opus 4.7,坦言依不及Mythos

      頭條要聞

      男子快遞被人力資源女同事私自拆開(kāi) 幾天后反被開(kāi)除

      頭條要聞

      男子快遞被人力資源女同事私自拆開(kāi) 幾天后反被開(kāi)除

      體育要聞

      皇馬拜仁踢出名局,但最搶鏡的還是他

      娛樂(lè)要聞

      絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

      財(cái)經(jīng)要聞

      海爾與醫(yī)美女王互撕 換血抗衰誰(shuí)的生意?

      汽車要聞

      埃安N60預(yù)售11.58萬(wàn)起 標(biāo)配激光雷達(dá)/零重力座椅

      態(tài)度原創(chuàng)

      教育
      旅游
      親子
      藝術(shù)
      公開(kāi)課

      教育要聞

      從“陪練”到“引路”:我們是如何陪孩子跳出冠軍與學(xué)霸雙軌的——王亮家教好故事

      旅游要聞

      花開(kāi)北京 2026北京郁金香文化節(jié)在順義啟幕

      親子要聞

      產(chǎn)后性冷淡:重繪“身體地圖”,喚醒愛(ài)的愉悅記憶

      藝術(shù)要聞

      紅底黑字,藏著毛主席給一位母親的最高贊譽(yù)

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版