<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      教龍蝦玩手機!打通GUI智能體訓練-評測-部署全流程,一站解決

      0
      分享至

      ClawGUI團隊 投稿
      量子位 | 公眾號 QbitAI

      沒有人工干預,沒有預設腳本,AI自己看屏幕、判斷局面、規劃消除路徑、點擊執行。

      看著它一步步把方塊消掉,莫名有種解壓感。

      這不是游戲外掛,而是一個通用GUI智能體在「認真工作」:它用的是和操作手機App、填寫表單、瀏覽網頁完全相同的視覺理解與操控能力。能玩消消樂,只是因為它真的學會了「看懂屏幕并操作」這件事。

      那么問題來了:一個能自己玩消消樂的AI,離替你完成日常手機操作還有多遠?不是那種「幫我設個鬧鐘」的語音助手,而是真正像人一樣,看屏幕、理解界面、滑動點擊、逐步完成復雜任務的智能體。

      當前GUI智能體研究普遍面臨一個結構性挑戰:訓練、評測、部署三個環節彼此割裂,難以形成閉環。模型在仿真環境里訓練完成后,往往缺乏配套的工程路徑遷移到真實設備;評測體系標準不一,不同框架下的數字難以橫向比較;而部署到真實設備,又需要獨立搭建一套工程基礎設施。三個環節各自為戰,整體推進的成本極高。

      今天,來自ZJU-REAL的團隊帶來了ClawGUI,一個覆蓋GUI智能體在線RL訓練、標準化評測、真機部署完整生命周期的開源框架。不是三個獨立工具的簡單拼接,而是一條打通的流水線:用ClawGUI-RL訓練,用ClawGUI-Eval評測,用OpenClaw-GUI部署,端到端驗證。

      基于這套流水線,一個僅2B參數的小模型ClawGUI-2B,在MobileWorld基準上取得17.1 SR,大幅超越基線的11.1,達到了接近8B模型的水平。



      △ClawGUI系統架構總覽

      ClawGUI-RL:讓GUI模型在環境中穩步提升

      GUI Agent的RL訓練需要與真實設備進行持續交互,截屏、解析、操作、獲得反饋,形成完整的episode。這意味著訓練基礎設施不僅需要模型訓練框架,還需要大規模環境仿真和設備管理能力。ClawGUI-RL是目前開源社區中為數不多的、經過端到端驗證的GUI Agent Online RL解決方案。

      具體來說,ClawGUI-RL將整個訓練基礎設施拆解為三層:環境管理、獎勵設計、策略優化。

      環境層面,所有設備后端(Docker虛擬機和物理手機)被統一抽象為同一套接口,訓練代碼無需區分底層是模擬器還是真機。每個環境遵循「重置→執行→評估→回收」的標準生命周期,配合Spare Server輪轉和周期性重啟,保證長時間訓練的穩定性。

      獎勵層面,ClawGUI-RL采用二元結果獎勵+PRM逐步獎勵的雙層設計。結果獎勵在episode結束時給出成功/失敗的0/1信號,PRM則在每一步操作后根據前后截圖和歷史動作判斷當前操作是否有效推進了任務,兩者相加構成最終獎勵。這種稠密的逐步反饋極大緩解了GUI長序列決策中獎勵稀疏的問題,讓優化器能夠區分哪些中間步驟是有價值的、哪些是無效繞路。

      策略優化層面,ClawGUI-RL支持GRPO、GiGPO等主流強化學習算法,并提供統一的訓練接口,方便研究者根據任務特性靈活切換和對比不同優化策略。



      △ClawGUI-RL架構圖

      虛擬環境與真機訓練

      基于Docker的Android虛擬環境,ClawGUI-RL支持大量虛擬Android環境同時并行運行。內置的Spare Server輪轉機制保證了訓練的魯棒性,當某個容器截圖失敗或設備不健康時,系統自動切換至備用服務器,訓練不中斷。團隊提供了經過驗證的端到端真機RL訓練流程,物理手機和云手機均可接入。真機訓練的交互協議與虛擬環境完全一致,為后續大規模云手機訓練鋪平了道路。

      PRM逐步獎勵:不止看結果,每一步都給分

      標準GRPO為整個Episode分配一個單一的優勢分數,成功了就是1,失敗了就是0,中間步驟好不好完全不管。這就像考試只看總分,不知道哪道題做對了哪道做錯了。ClawGUI-RL通過引入過程獎勵模型(PRM)改變了這一點,對每一步操作進行評估,提供更密集的梯度信號,實現更精細的策略優化。

      實驗結果

      以MAI-UI-2B為基座,ClawGUI-2B在MobileWorld基準上的表現:



      幾個關鍵數字:ClawGUI-2B達到17.1 SR,大幅超越MAI-UI-2B基線(11.1),提升幅度達6%。一個2B小模型,達到了接近8B模型的水平。

      ClawGUI-Eval:95.8%復現率,讓評測結果可信

      GUI模型評測領域長期面臨復現一致性的挑戰:不同框架、不同實現細節下,同一模型的評測數字往往存在明顯差異。差個prompt格式、搞混坐標系、調錯分辨率,結果就可能偏差數個百分點。

      ClawGUI-Eval通過標準化的Infer→Judge→Metric三階段流水線系統性地解決了這個問題。



      △ClawGUI-Eval評測框架

      覆蓋6大Benchmark(ScreenSpot-Pro、ScreenSpot-V2、UIVision、MMBench-GUI、OSWorld-G、AndroidControl),支持11+模型(Qwen3-VL、Qwen2.5-VL、UI-TARS、MAI-UI、GUI-G2、UI-Venus、Gemini、Seed 1.8等)。48個有官方基準的格子中成功復現46個,總體復現率95.8%。前沿模型Gemini 3.0 Pro和Seed 1.8在ScreenSpot-Pro上實現100%復現,并首次評測了Gemini 3.1 Pro(85.01)。

      踩坑踩出來的復現Tips

      比數字更有價值的,是團隊總結的關鍵復現經驗,每一條都是用準確率換來的教訓:

      1. 坐標系統不匹配=準確率歸零。Qwen2.5-VL輸出絕對像素坐標,Qwen3-VL輸出[0,1000]歸一化,StepGUI用[0,999],搞混一個就是災難。

      2. 圖文輸入順序(tv vs. vt)可導致數個百分點差異。大部分模型需要圖片在前(vt),MAI-UI需要文本在前(tv),用錯直接崩盤。

      3. 哪怕一句”You are a helpful assistant.”也能帶來約1%的提升。System prompt必須嚴格對齊官方。

      4. Prompt格式必須逐字對齊。措辭微小差異就可能影響結果。

      5. 溫度建議設為0.0。非零溫度影響坐標精度。

      所有推理結果已全部開源,歡迎下載驗證。

      OpenClaw-GUI:一句話控制手機



      GUI智能體真正的價值,在于能夠在用戶手邊的真實設備上運行、幫人完成實際任務。OpenClaw-GUI正是為此而生,把GUI智能體帶到真機上落地。

      基于nanobot框架構建,OpenClaw-GUI實現了通過自然語言控制真實手機。接入飛書、QQ、Telegram、Discord、Slack、釘釘等12+聊天平臺,用戶在聊天窗口發一句指令,Agent就能截屏理解界面、規劃操作路徑、執行點擊和輸入。

      更關鍵的是,OpenClaw-GUI把評測也集成進來了。說一句「幫我測一下qwen3vl在screenspot-pro上的指標」,Agent會自動完成環境檢測→多GPU推理→判分→指標計算→結果對比。這本身就是CLI+GUI協作的絕佳例證,計算密集型工作由CLI高效完成,人機交互和結果呈現依賴GUI。

      核心能力:跨平臺支持Android(ADB)、鴻蒙(HDC)、iOS(XCTest);多模型接入AutoGLM、MAI-UI、GUI-Owl、Qwen-VL、UI-TARS;個性化記憶,自動學習用戶偏好,跨任務持續復用;Episode記錄,每次執行以結構化Episode保存,支持回放與數據集構建;Web UI基于Gradio,支持設備管理、任務執行與記憶查看。

      展望:GUI的故事遠未結束

      2026年,CLI Agent無疑是最火的賽道。Claude Code、Gemini CLI、CodeBuddy……一個自然的問題浮現:GUI智能體還有必要嗎?

      研究團隊傾向于認為:GUI的故事遠沒有結束,CLI+GUI的融合或許是通往通用Agent的一條重要路徑。

      人類短期內離不開GUI。從文字到圖片到視頻,越容易被感知的媒介越具備傳播優勢。外賣、打車、社交、購物,移動互聯網絕大多數的交互發生在圖形界面上。至少在可見的未來,GUI仍將是數字世界的主要入口。

      不是所有App都有API。微信、銀行、大量企業內部系統只有圖形界面。CLI面向Agent執行,高效干活;GUI面向人類理解,感知和交互。兩者更像是互補關系而非替代關系。

      GUI的「可見性」提供了一種獨特的信任機制。假如Agent在執行任務時涉及支付操作,CLI以用戶看不見的方式直接完成了付款,造成的損失誰來承擔?GUI操作到關鍵步驟時,用戶可以看到屏幕上正在發生什么、隨時介入。這種可控性可能是純CLI方案較難提供的。

      Online RL的工程挑戰遠未被解決。GUI Agent的RL訓練需要與真實App交互,登錄驗證、反爬機制、動態UI變化,大規模RL Scaling的穩定性仍是行業難題。ClawGUI-RL的Spare Server輪轉和周期性重啟機制是一個初步的探索,距離大規模生產級訓練還有很長的路要走。

      路線圖

      ClawGUI的規劃不止于此:OpenClaw-GUI支持自然語言手機操控與評測;ClawGUI-RL可擴展的Mobile Online RL訓練基礎設施,支持PRM逐步獎勵;ClawGUI-Eval標準化評測套件,6個Benchmark,95%+復現率;ClawGUI-2B達到17.1 SR(基線11.1);后續將推進真機部署OpenClaw-GUI,直接部署在手機上避免云端隱私泄露;Desktop / Web Online RL,將在線RL擴展至桌面和網頁環境;以及基于OPD算法的實時強化學習。

      總結

      ClawGUI不是要證明GUI比CLI更好,而是想探索一種可能性:訓練、評測、部署打通之后,GUI智能體能走多遠?CLI和GUI的協作又能釋放出怎樣的潛力?

      ClawGUI-RL讓GUI Agent的在線訓練從虛擬環境走向真機,ClawGUI-Eval為社區提供了一套可信賴的評測標準,OpenClaw-GUI把GUI智能體從研究帶到了真實設備。

      項目已開源,歡迎Star支持,讓更多人看到GUI Agent的可能性。

      項目地址:
      https://github.com/ZJU-REAL/ClawGUI

      項目主頁:
      https://zju-real.github.io/ClawGUI-Page/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      拉夫羅夫:西方將烏克蘭推向更大范圍沖突 俄方耐心有限

      拉夫羅夫:西方將烏克蘭推向更大范圍沖突 俄方耐心有限

      財聯社
      2026-04-19 17:41:04
      為什么腦梗逐年增多?提醒:與肥肉無關,有一樣東西要少碰

      為什么腦梗逐年增多?提醒:與肥肉無關,有一樣東西要少碰

      芹姐說生活
      2026-04-19 08:33:41
      中國人在哈薩克斯坦生活實錄:飯太多、女人太颯、聊天太上頭了!

      中國人在哈薩克斯坦生活實錄:飯太多、女人太颯、聊天太上頭了!

      老特有話說
      2026-04-19 15:29:16
      震驚!兒媳失業近一年,每天只買菜做飯,河南婆婆吐槽勸兒子離婚

      震驚!兒媳失業近一年,每天只買菜做飯,河南婆婆吐槽勸兒子離婚

      火山詩話
      2026-04-19 09:20:26
      成都“牽手門”事件女主現今狀況曝光,太慘了......

      成都“牽手門”事件女主現今狀況曝光,太慘了......

      許三歲
      2026-03-17 07:34:05
      世錦賽3大不可思議!丁俊暉7-2領跑,張安達6-10慘遭艾倫逆轉

      世錦賽3大不可思議!丁俊暉7-2領跑,張安達6-10慘遭艾倫逆轉

      林子說事
      2026-04-20 00:10:26
      自責!馬卡:皇馬球員怒氣沖沖回到更衣室,看到卡馬文加獨自痛哭

      自責!馬卡:皇馬球員怒氣沖沖回到更衣室,看到卡馬文加獨自痛哭

      蘭亭墨未干
      2026-04-19 20:15:03
      間諜就在我們身邊!4月16日,央視報道了一個讓人后背發涼的新聞

      間諜就在我們身邊!4月16日,央視報道了一個讓人后背發涼的新聞

      丁丁鯉史紀
      2026-04-19 19:43:57
      超級巨大失誤!多納魯馬送禮,哈弗茨笑納,塔帥瘋狂慶祝瓜帥暴怒

      超級巨大失誤!多納魯馬送禮,哈弗茨笑納,塔帥瘋狂慶祝瓜帥暴怒

      奧拜爾
      2026-04-19 23:57:08
      一個害國害民的歷史罪人,老百姓還把他當成英雄崇拜

      一個害國害民的歷史罪人,老百姓還把他當成英雄崇拜

      小豫講故事
      2026-04-19 06:00:10
      鄭永剛轉身拒握手,情緒失控抑或刻意挑釁,聯賽禮儀該用規則守護

      鄭永剛轉身拒握手,情緒失控抑或刻意挑釁,聯賽禮儀該用規則守護

      籃球看比賽
      2026-04-19 15:17:04
      千萬別幫!女子坐飛機接連被陌生人請求帶行李,一查嚇一跳:幸好拒絕了

      千萬別幫!女子坐飛機接連被陌生人請求帶行李,一查嚇一跳:幸好拒絕了

      金哥說新能源車
      2026-04-20 00:29:58
      不裝了賴清德、馬英九暴露真面目!國民黨發甲級動員,想決一死戰

      不裝了賴清德、馬英九暴露真面目!國民黨發甲級動員,想決一死戰

      青梅侃史啊
      2026-04-19 19:17:48
      豪擲120億!巴鐵要買40架殲-35A?背后金主發力,巴媒:碾壓印度10年

      豪擲120億!巴鐵要買40架殲-35A?背后金主發力,巴媒:碾壓印度10年

      健身狂人
      2026-04-19 20:02:22
      男子爬上泰山“五岳獨尊”石刻拍照,景區:將核查其身份進行處理

      男子爬上泰山“五岳獨尊”石刻拍照,景區:將核查其身份進行處理

      揚子晚報
      2026-04-17 12:09:40
      A股:剛剛,大消息傳來,美方突抵巴基斯坦,周一將迎新關鍵節點

      A股:剛剛,大消息傳來,美方突抵巴基斯坦,周一將迎新關鍵節點

      云鵬敘事
      2026-04-20 00:00:09
      本田被曝將關停廣州、武漢兩座燃油車工廠 年產能砍至72萬輛

      本田被曝將關停廣州、武漢兩座燃油車工廠 年產能砍至72萬輛

      金融界
      2026-04-17 13:45:07
      4.20日早評|美伊大改口!A股要加速!

      4.20日早評|美伊大改口!A股要加速!

      龍行天下虎
      2026-04-20 01:30:43
      全網唱衰的下嫁!嫁普通人5年,前任是法拉利總裁,終究還是輸了

      全網唱衰的下嫁!嫁普通人5年,前任是法拉利總裁,終究還是輸了

      橙星文娛
      2026-04-18 16:42:58
      55歲上海炒股冠軍罕見發聲:如果本金有20W,建議死磕這五條鐵律

      55歲上海炒股冠軍罕見發聲:如果本金有20W,建議死磕這五條鐵律

      股經縱橫談
      2026-04-19 19:03:09
      2026-04-20 02:47:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12497文章數 176455關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內娛隔空掀桌第一人

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      健康
      旅游
      教育
      親子
      軍事航空

      干細胞抗衰4大誤區,90%的人都中招

      旅游要聞

      北京投入2.2億元建成和田“三館一院”

      教育要聞

      655家單位、1.29萬個崗位,湖南用心幫大學生找工作

      親子要聞

      孩子總打噴嚏、起疹子,時過敏嗎?

      軍事要聞

      伊朗逼退美掃雷艇:美方求給15分鐘撤退

      無障礙瀏覽 進入關懷版