網易首頁 > 網易號 > 正文申請入駐

o3 Gemini 都翻車？首個可驗證長鏈 GUI 數據集 VeriGUI 重磅開源，探索通用 Agent 能力邊界

2025-08-13 12:14:48　來源: AI科技評論

廣東舉報

分享至

VeriGUI 論文一經發布，迅速在 Hugging Face 榮登月榜第三。

作者丨整數智能

GUI 智能體正以前所未有的速度崛起，有望徹底改變人機交互的方式。然而，這一領域的進展正面臨瓶頸：現有數據集大多聚焦于 10 步以內的短程交互，且僅驗證最終結果，無法有效評估和訓練智能體在真實世界中的長時程規劃與執行能力。

長期以來，評估 AI 模型能力的標準主要依賴于靜態的、封閉世界的基準測試，例如 MMLU 或 GPQA。這些基準有效地衡量了一個模型“知道”什么，即其知識儲備和在特定、孤立任務上的表現。然而，隨著 Agent 的興起，研究界的共識正在迅速轉向一個更根本的問題：一個 LLM 及 Agent，如何創造更大的價值？

這種轉變催生了新一代的動態、交互式基準，它們旨在評估 Agent 在復雜、開放和不可預測的環境中的實際執行能力。在這個背景下，由 2077AI 開源基金會牽頭構建的全新基準 VeriGUI應運而生，VeriGUI 具備兩大核心特征突破——長鏈復雜性（Long-Chain Complexity）與子任務級可驗證性（Subtask-Level Verifiability）。

VeriGUI 論文一經發布，迅速在 Hugging Face 榮登月榜第三！這一成就不僅證明了社區對 VeriGUI 價值的高度認可，也為通用智能代理的研究提供了一個更真實、更精細的試驗場。

VeriGUI 數據集一覽

背景痛點：簡單任務已成“過去式”，復場景呼喚新基準

當前 GUI 智能體研究的核心痛點在于，現有數據集已無法滿足前沿模型的評估需求：

短流程，淺交互：現有數據集的任務平均長度通常不足 10 步，智能體只需識別 UI 元素并執行相應動作即可完成，這遠不能模擬真實世界中涉及條件判斷和狀態追蹤的復雜工作流。
結果式驗證，過程成“黑箱”：大多基準僅通過 URL 匹配等方式驗證最終結果，當任務失敗時，無法得知問題出在哪個環節，難以對智能體的規劃能力進行針對性改進。

VeriGUI 與其他現有 GUI 數據集和基準測試平臺在平臺支持、步驟數、可驗證性、人工演示、可執行性和交互方式上的差異

三大技術亮點：為復雜任務而生

VeriGUI 通過三大技術亮點，精準地解決了上述難題：

4-8 子任務 × 百級操作的長鏈軌跡：VeriGUI 中的每個任務都被分解為 4-8 個相互依賴的子任務，完成全程需要數百次 GUI 操作。更具創新性的是，任何子任務都能作為獨立的起點，從而可以對智能體在任務不同階段的規劃、記憶和決策能力進行全面評估。
子任務級驗證信號，支持多策略探索：VeriGUI 提供子任務級別的精細化監督信號，它只驗證每個子任務的目標是否達成，而不限制智能體達成目標的具體方式。這極大地鼓勵了智能體探索多樣化的解決策略，而不是死板地遵循預設步驟。
跨 Web & Desktop 的統一操作空間：數據集同時涵蓋了網頁和桌面兩大主流平臺，并定義了一套統一的 GUI 操作空間（如點擊、輸入、拖拽等），使智能體能夠學習跨環境的通用交互能力。

VeriGUI 數據集的設計理念與核心：長鏈條復雜性 (Long-Chain Complexity)和子任務級別可驗證性 (Subtask-Level Verifiability)

數據規模速覽

基于已收集的 130 個 Web 任務軌跡，VeriGUI 展現了其卓越的復雜性：

任務總數： 130
子任務總數： 587
平均每任務步數： 214.4

VeriGUI 數據集的詳細統計數據，包括任務領域分布（a）、子任務數量分布（b、c）、GUI 動作分布（d）、不同領域中的動作數量（e）以及總體步驟數量分布（f）

基準實驗摘要：頂尖模型遭遇“滑鐵盧”

我們在 VeriGUI 上對多種 SOTA 基礎模型進行了全面測試，測試框架涵蓋了四種主流范式：

智能體框架： Deep Research Agent、Search Engine Agent、Browser-Use Agent 及 Multi-Agent System。
實驗結果：結果令人震驚——在所有測試組合中，沒有任何一個模型的平均任務成功率超過 10%。這清晰地揭示了現有模型在長時程規劃、多步推理和復雜決策方面的普遍瓶頸，也印證了 VeriGUI 作為新一代高難度基準的價值。

不同類型的智能體在 VeriGUI 基準測試上 130 個網頁任務中的成功率（SR）和任務完成率（CR）

科研價值：填補評測空白，賦能前沿研究

VeriGUI 的發布具有重要的科研價值：

填補評測空白：它為評估智能體在長時程、開放式 GUI 工作流中的表現提供了業界首個具備子任務級監督的基準。
賦能前沿研究：其細粒度的驗證機制為智能體的規劃、記憶、決策和容錯等關鍵能力的研究提供了前所未有的精細化監督信號，有助于深入分析失敗模式和規劃瓶頸。

開源資源 & 快速上手

我們已將 VeriGUI 完全開源，希望能為社區的研究提供便利。

GitHub 代碼倉：
https://github.com/VeriGUI-Team/VeriGUI
Hugging Face 數據集：https://huggingface.co/datasets/2077AIDataFoundation/VeriGUI

您可以輕松通過 Datasets 庫一鍵加載，快速開啟您的研究。

如果您需要詳細了解我們的實驗過程和更多數據集構建細節，歡迎閱讀我們的論文：

ArxivPaper: https://arxiv.org/abs/2508.04026

展望與合作計劃

VeriGUI 項目仍在進行中。我們正積極擴充數據集，未來版本將包含更多強調交互性的 Web 任務（如表單填寫、賬戶登錄）以及大量復雜的桌面軟件操作任務。

2077AI 開源基金會致力于推動 AI 領域開放研究和合作。我們真誠地邀請學術界和工業界的同仁們與我們合作，共同建設 VeriGUI 生態，在我們的基準上提交新的 Baseline，一起探索通用智能體的未來。

歡迎關注我們（https://www.2077ai.com/），也期待與您的合作！

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.