![]()
VeriGUI 論文一經發布,迅速在 Hugging Face 榮登月榜第三。
作者丨整數智能
![]()
GUI 智能體正以前所未有的速度崛起,有望徹底改變人機交互的方式。然而,這一領域的進展正面臨瓶頸:現有數據集大多聚焦于 10 步以內的短程交互,且僅驗證最終結果,無法有效評估和訓練智能體在真實世界中的長時程規劃與執行能力。
長期以來,評估 AI 模型能力的標準主要依賴于靜態的、封閉世界的基準測試,例如 MMLU 或 GPQA。這些基準有效地衡量了一個模型“知道”什么,即其知識儲備和在特定、孤立任務上的表現。然而,隨著 Agent 的興起,研究界的共識正在迅速轉向一個更根本的問題:一個 LLM 及 Agent,如何創造更大的價值?
這種轉變催生了新一代的動態、交互式基準,它們旨在評估 Agent 在復雜、開放和不可預測的環境中的實際執行能力。在這個背景下,由 2077AI 開源基金會牽頭構建的全新基準 VeriGUI應運而生,VeriGUI 具備兩大核心特征突破——長鏈復雜性 (Long-Chain Complexity) 與子任務級可驗證性 (Subtask-Level Verifiability)。
VeriGUI 論文一經發布,迅速在 Hugging Face 榮登月榜第三!這一成就不僅證明了社區對 VeriGUI 價值的高度認可,也為通用智能代理的研究提供了一個更真實、更精細的試驗場。
![]()
VeriGUI 數據集一覽
01
背景痛點:簡單任務已成“過去式”,復場景呼喚新基準
當前 GUI 智能體研究的核心痛點在于,現有數據集已無法滿足前沿模型的評估需求:
短流程,淺交互:現有數據集的任務平均長度通常不足 10 步,智能體只需識別 UI 元素并執行相應動作即可完成,這遠不能模擬真實世界中涉及條件判斷和狀態追蹤的復雜工作流。
結果式驗證,過程成“黑箱”:大多基準僅通過 URL 匹配等方式驗證最終結果,當任務失敗時,無法得知問題出在哪個環節,難以對智能體的規劃能力進行針對性改進。
![]()
VeriGUI 與其他現有 GUI 數據集和基準測試平臺在平臺支持、步驟數、可驗證性、人工演示、可執行性和交互方式上的差異
02
三大技術亮點:為復雜任務而生
VeriGUI 通過三大技術亮點,精準地解決了上述難題:
4-8 子任務 × 百級操作的長鏈軌跡:VeriGUI 中的每個任務都被分解為 4-8 個相互依賴的子任務,完成全程需要數百次 GUI 操作。更具創新性的是,任何子任務都能作為獨立的起點,從而可以對智能體在任務不同階段的規劃、記憶和決策能力進行全面評估。
子任務級驗證信號,支持多策略探索:VeriGUI 提供子任務級別的精細化監督信號,它只驗證每個子任務的目標是否達成,而不限制智能體達成目標的具體方式。這極大地鼓勵了智能體探索多樣化的解決策略,而不是死板地遵循預設步驟。
跨 Web & Desktop 的統一操作空間:數據集同時涵蓋了網頁和桌面兩大主流平臺,并定義了一套統一的 GUI 操作空間(如點擊、輸入、拖拽等),使智能體能夠學習跨環境的通用交互能力。
![]()
VeriGUI 數據集的設計理念與核心:長鏈條復雜性 (Long-Chain Complexity)和子任務級別可驗證性 (Subtask-Level Verifiability)
03
數據規模速覽
基于已收集的 130 個 Web 任務軌跡,VeriGUI 展現了其卓越的復雜性:
任務總數: 130
子任務總數: 587
平均每任務步數: 214.4
![]()
VeriGUI 數據集的詳細統計數據,包括任務領域分布(a)、子任務數量分布(b、c)、GUI 動作分布(d)、不同領域中的動作數量(e)以及總體步驟數量分布(f)
04
基準實驗摘要:頂尖模型遭遇“滑鐵盧”
我們在 VeriGUI 上對多種 SOTA 基礎模型進行了全面測試,測試框架涵蓋了四種主流范式:
智能體框架: Deep Research Agent、Search Engine Agent、Browser-Use Agent 及 Multi-Agent System。
實驗結果:結果令人震驚——在所有測試組合中,沒有任何一個模型的平均任務成功率超過 10%。這清晰地揭示了現有模型在長時程規劃、多步推理和復雜決策方面的普遍瓶頸,也印證了 VeriGUI 作為新一代高難度基準的價值。
![]()
不同類型的智能體在 VeriGUI 基準測試上 130 個網頁任務中的成功率(SR)和任務完成率(CR)
05
科研價值:填補評測空白,賦能前沿研究
VeriGUI 的發布具有重要的科研價值:
填補評測空白:它為評估智能體在長時程、開放式 GUI 工作流中的表現提供了業界首個具備子任務級監督的基準。
賦能前沿研究:其細粒度的驗證機制為智能體的規劃、記憶、決策和容錯等關鍵能力的研究提供了前所未有的精細化監督信號,有助于深入分析失敗模式和規劃瓶頸。
06
開源資源 & 快速上手
我們已將 VeriGUI 完全開源,希望能為社區的研究提供便利。
GitHub 代碼倉:
https://github.com/VeriGUI-Team/VeriGUI
Hugging Face 數據集:https://huggingface.co/datasets/2077AIDataFoundation/VeriGUI
您可以輕松通過 Datasets 庫一鍵加載,快速開啟您的研究。
如果您需要詳細了解我們的實驗過程和更多數據集構建細節,歡迎閱讀我們的論文:
ArxivPaper: https://arxiv.org/abs/2508.04026
07
展望與合作計劃
VeriGUI 項目仍在進行中。我們正積極擴充數據集,未來版本將包含更多強調交互性的 Web 任務(如表單填寫、賬戶登錄)以及大量復雜的桌面軟件操作任務。
2077AI 開源基金會致力于推動 AI 領域開放研究和合作。我們真誠地邀請學術界和工業界的同仁們與我們合作,共同建設 VeriGUI 生態,在我們的基準上提交新的 Baseline,一起探索通用智能體的未來。
歡迎關注我們(https://www.2077ai.com/),也期待與您的合作!
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.