<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      o3 Gemini 都翻車?首個可驗證長鏈 GUI 數據集 VeriGUI 重磅開源,探索通用 Agent 能力邊界

      0
      分享至


      VeriGUI 論文一經發布,迅速在 Hugging Face 榮登月榜第三。

      作者丨整數智能

      GUI 智能體正以前所未有的速度崛起,有望徹底改變人機交互的方式。然而,這一領域的進展正面臨瓶頸:現有數據集大多聚焦于 10 步以內的短程交互,且僅驗證最終結果,無法有效評估和訓練智能體在真實世界中的長時程規劃與執行能力。

      長期以來,評估 AI 模型能力的標準主要依賴于靜態的、封閉世界的基準測試,例如 MMLU 或 GPQA。這些基準有效地衡量了一個模型“知道”什么,即其知識儲備和在特定、孤立任務上的表現。然而,隨著 Agent 的興起,研究界的共識正在迅速轉向一個更根本的問題:一個 LLM 及 Agent,如何創造更大的價值?

      這種轉變催生了新一代的動態、交互式基準,它們旨在評估 Agent 在復雜、開放和不可預測的環境中的實際執行能力。在這個背景下,由 2077AI 開源基金會牽頭構建的全新基準 VeriGUI應運而生,VeriGUI 具備兩大核心特征突破——長鏈復雜性 (Long-Chain Complexity) 與子任務級可驗證性 (Subtask-Level Verifiability)。

      VeriGUI 論文一經發布,迅速在 Hugging Face 榮登月榜第三!這一成就不僅證明了社區對 VeriGUI 價值的高度認可,也為通用智能代理的研究提供了一個更真實、更精細的試驗場。


      VeriGUI 數據集一覽

      01

      背景痛點:簡單任務已成“過去式”,復場景呼喚新基準

      當前 GUI 智能體研究的核心痛點在于,現有數據集已無法滿足前沿模型的評估需求:

      • 短流程,淺交互:現有數據集的任務平均長度通常不足 10 步,智能體只需識別 UI 元素并執行相應動作即可完成,這遠不能模擬真實世界中涉及條件判斷和狀態追蹤的復雜工作流。

      • 結果式驗證,過程成“黑箱”:大多基準僅通過 URL 匹配等方式驗證最終結果,當任務失敗時,無法得知問題出在哪個環節,難以對智能體的規劃能力進行針對性改進。


      VeriGUI 與其他現有 GUI 數據集和基準測試平臺在平臺支持、步驟數、可驗證性、人工演示、可執行性和交互方式上的差異

      02

      三大技術亮點:為復雜任務而生

      VeriGUI 通過三大技術亮點,精準地解決了上述難題:

      1. 4-8 子任務 × 百級操作的長鏈軌跡:VeriGUI 中的每個任務都被分解為 4-8 個相互依賴的子任務,完成全程需要數百次 GUI 操作。更具創新性的是,任何子任務都能作為獨立的起點,從而可以對智能體在任務不同階段的規劃、記憶和決策能力進行全面評估。

      2. 子任務級驗證信號,支持多策略探索:VeriGUI 提供子任務級別的精細化監督信號,它只驗證每個子任務的目標是否達成,而不限制智能體達成目標的具體方式。這極大地鼓勵了智能體探索多樣化的解決策略,而不是死板地遵循預設步驟。

      3. 跨 Web & Desktop 的統一操作空間:數據集同時涵蓋了網頁和桌面兩大主流平臺,并定義了一套統一的 GUI 操作空間(如點擊、輸入、拖拽等),使智能體能夠學習跨環境的通用交互能力。


      VeriGUI 數據集的設計理念與核心:長鏈條復雜性 (Long-Chain Complexity)和子任務級別可驗證性 (Subtask-Level Verifiability)

      03

      數據規模速覽

      基于已收集的 130 個 Web 任務軌跡,VeriGUI 展現了其卓越的復雜性:

      • 任務總數: 130

      • 子任務總數: 587

      • 平均每任務步數: 214.4


      VeriGUI 數據集的詳細統計數據,包括任務領域分布(a)、子任務數量分布(b、c)、GUI 動作分布(d)、不同領域中的動作數量(e)以及總體步驟數量分布(f)

      04

      基準實驗摘要:頂尖模型遭遇“滑鐵盧”

      我們在 VeriGUI 上對多種 SOTA 基礎模型進行了全面測試,測試框架涵蓋了四種主流范式:

      • 智能體框架: Deep Research Agent、Search Engine Agent、Browser-Use Agent 及 Multi-Agent System。

      • 實驗結果:結果令人震驚——在所有測試組合中,沒有任何一個模型的平均任務成功率超過 10%。這清晰地揭示了現有模型在長時程規劃、多步推理和復雜決策方面的普遍瓶頸,也印證了 VeriGUI 作為新一代高難度基準的價值。


      不同類型的智能體在 VeriGUI 基準測試上 130 個網頁任務中的成功率(SR)和任務完成率(CR)

      05

      科研價值:填補評測空白,賦能前沿研究

      VeriGUI 的發布具有重要的科研價值:

      • 填補評測空白:它為評估智能體在長時程、開放式 GUI 工作流中的表現提供了業界首個具備子任務級監督的基準。

      • 賦能前沿研究:其細粒度的驗證機制為智能體的規劃、記憶、決策和容錯等關鍵能力的研究提供了前所未有的精細化監督信號,有助于深入分析失敗模式和規劃瓶頸。

      06

      開源資源 & 快速上手

      我們已將 VeriGUI 完全開源,希望能為社區的研究提供便利。

      • GitHub 代碼倉

        https://github.com/VeriGUI-Team/VeriGUI

      • Hugging Face 數據集:https://huggingface.co/datasets/2077AIDataFoundation/VeriGUI

      您可以輕松通過 Datasets 庫一鍵加載,快速開啟您的研究。

      如果您需要詳細了解我們的實驗過程和更多數據集構建細節,歡迎閱讀我們的論文:

      • ArxivPaper: https://arxiv.org/abs/2508.04026

      07

      展望與合作計劃

      VeriGUI 項目仍在進行中。我們正積極擴充數據集,未來版本將包含更多強調交互性的 Web 任務(如表單填寫、賬戶登錄)以及大量復雜的桌面軟件操作任務。

      2077AI 開源基金會致力于推動 AI 領域開放研究和合作。我們真誠地邀請學術界和工業界的同仁們與我們合作,共同建設 VeriGUI 生態,在我們的基準上提交新的 Baseline,一起探索通用智能體的未來。

      歡迎關注我們(https://www.2077ai.com/),也期待與您的合作!

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣州男子因狗吠亂拉投毒致寵物狗死亡,法院最終判決

      廣州男子因狗吠亂拉投毒致寵物狗死亡,法院最終判決

      愛下廚的阿釃
      2026-02-06 17:10:03
      中國農業銀行河北省分行原黨委委員、副行長陳元良被開除黨籍

      中國農業銀行河北省分行原黨委委員、副行長陳元良被開除黨籍

      澎湃新聞
      2026-02-06 15:45:06
      體面分手!哈登聲明揭露真相:我從未申請離隊,只是看不到未來

      體面分手!哈登聲明揭露真相:我從未申請離隊,只是看不到未來

      鍵侃籃球
      2026-02-07 02:19:56
      馬未都:我身價至少100億,但這點錢,跟我母親比,我就是個貧農

      馬未都:我身價至少100億,但這點錢,跟我母親比,我就是個貧農

      忠于法紀
      2026-01-15 22:08:28
      成功了!中國向世界宣布重大科技成果

      成功了!中國向世界宣布重大科技成果

      元爸體育
      2026-02-04 16:44:45
      第一批獨生子女的扎心現實:父母去世后,成了舉目無親的“孤兒”

      第一批獨生子女的扎心現實:父母去世后,成了舉目無親的“孤兒”

      千秋文化
      2026-02-01 20:31:47
      第三次世界大戰導火索如果中國攔截了美國的

      第三次世界大戰導火索如果中國攔截了美國的

      林子說事
      2026-02-07 00:57:11
      霍金也被愛潑斯坦檔案害慘了,都癱瘓成這樣,真的還能玩女人嗎?

      霍金也被愛潑斯坦檔案害慘了,都癱瘓成這樣,真的還能玩女人嗎?

      我心縱橫天地間
      2026-02-05 19:14:54
      終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

      終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

      福建平子
      2026-01-28 10:52:25
      媒體人:申花吸金能力在中超第一檔,胸前廣告贊助額每年兩億元

      媒體人:申花吸金能力在中超第一檔,胸前廣告贊助額每年兩億元

      懂球帝
      2026-02-07 01:04:18
      11歲玥兒罕見穿黑衣現身,眼神哀傷克制:她其實什么都懂

      11歲玥兒罕見穿黑衣現身,眼神哀傷克制:她其實什么都懂

      橙星文娛
      2026-02-05 17:06:04
      逆行救出51人的劉海洋轉院至長沙,病房里向女兒重述救援過程:這就是爸爸的警察故事

      逆行救出51人的劉海洋轉院至長沙,病房里向女兒重述救援過程:這就是爸爸的警察故事

      瀟湘晨報
      2026-02-06 14:57:30
      賴清德喊話大陸對話,提出兩岸有三大共同敵人,國臺辦:有個前提

      賴清德喊話大陸對話,提出兩岸有三大共同敵人,國臺辦:有個前提

      午夜搭車a
      2026-02-07 02:23:47
      最新任命!查爾斯宣布由威廉王子代替,哈里王子不得不“妥協”

      最新任命!查爾斯宣布由威廉王子代替,哈里王子不得不“妥協”

      夜深愛雜談
      2026-02-06 17:37:17
      大反轉!向嫣然醫院捐款429.2萬元?李亞鵬哽咽:感謝董宇輝!

      大反轉!向嫣然醫院捐款429.2萬元?李亞鵬哽咽:感謝董宇輝!

      小娛樂悠悠
      2026-02-06 09:09:39
      樊振東球隊三天內三位實力隊友接連宣布離隊,冠軍陣容解體。

      樊振東球隊三天內三位實力隊友接連宣布離隊,冠軍陣容解體。

      章民解說體育
      2026-02-06 04:33:53
      正式復出!WTA多哈1000簽表:鄭欽文首秀對手出爐,或戰萊巴金娜

      正式復出!WTA多哈1000簽表:鄭欽文首秀對手出爐,或戰萊巴金娜

      大秦壁虎白話體育
      2026-02-06 20:51:54
      訪華回國后,斯塔默日子不好過,被逼到公開道歉,首相當不成了?

      訪華回國后,斯塔默日子不好過,被逼到公開道歉,首相當不成了?

      燦若銀爛
      2026-02-07 03:20:27
      中央定調,延遲退休實施后,每晚1年退休,養老金能增加6%嗎?

      中央定調,延遲退休實施后,每晚1年退休,養老金能增加6%嗎?

      另子維愛讀史
      2026-02-05 17:45:59
      戲子誤國!離春節不到20天,4位明星相繼塌房,一個比一個荒唐

      戲子誤國!離春節不到20天,4位明星相繼塌房,一個比一個荒唐

      往史過眼云煙
      2026-02-06 16:40:38
      2026-02-07 04:16:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7071文章數 20728關注度
      往期回顧 全部

      科技要聞

      獨角獸版圖巨變:SpaceX奔萬億 中美差在哪

      頭條要聞

      電動車行業"老三"沖刺上市 分股東2億克扣員工社保3億

      頭條要聞

      電動車行業"老三"沖刺上市 分股東2億克扣員工社保3億

      體育要聞

      西甲射手榜第2,身價不到姆巴佩1/40

      娛樂要聞

      微博之夜搶C風波 楊冪工作室9字討說法

      財經要聞

      愛爾眼科董事長旗下7家精神病院騙保

      汽車要聞

      寶馬"本命年"關鍵詞:20款新車與"新世代"耐力賽

      態度原創

      健康
      手機
      游戲
      房產
      公開課

      轉頭就暈的耳石癥,能開車上班嗎?

      手機要聞

      榮耀600被曝光:6.57英寸+9000mAh±電池,友商拿什么打!

      T2總裁回應GTA6爭議:給他愛新DLC力證老作熱度不減

      房產要聞

      新春三亞置業,看過這個熱盤再說!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版