<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      教龍蝦玩手機!打通GUI智能體訓練-評測-部署全流程,一站解決

      0
      分享至

      ClawGUI團隊 投稿
      量子位 | 公眾號 QbitAI

      沒有人工干預,沒有預設腳本,AI自己看屏幕、判斷局面、規劃消除路徑、點擊執行。

      看著它一步步把方塊消掉,莫名有種解壓感。

      這不是游戲外掛,而是一個通用GUI智能體在「認真工作」:它用的是和操作手機App、填寫表單、瀏覽網頁完全相同的視覺理解與操控能力。能玩消消樂,只是因為它真的學會了「看懂屏幕并操作」這件事。

      那么問題來了:一個能自己玩消消樂的AI,離替你完成日常手機操作還有多遠?不是那種「幫我設個鬧鐘」的語音助手,而是真正像人一樣,看屏幕、理解界面、滑動點擊、逐步完成復雜任務的智能體。

      當前GUI智能體研究普遍面臨一個結構性挑戰:訓練、評測、部署三個環節彼此割裂,難以形成閉環。模型在仿真環境里訓練完成后,往往缺乏配套的工程路徑遷移到真實設備;評測體系標準不一,不同框架下的數字難以橫向比較;而部署到真實設備,又需要獨立搭建一套工程基礎設施。三個環節各自為戰,整體推進的成本極高。

      今天,來自ZJU-REAL的團隊帶來了ClawGUI,一個覆蓋GUI智能體在線RL訓練、標準化評測、真機部署完整生命周期的開源框架。不是三個獨立工具的簡單拼接,而是一條打通的流水線:用ClawGUI-RL訓練,用ClawGUI-Eval評測,用OpenClaw-GUI部署,端到端驗證。

      基于這套流水線,一個僅2B參數的小模型ClawGUI-2B,在MobileWorld基準上取得17.1 SR,大幅超越基線的11.1,達到了接近8B模型的水平。



      △ClawGUI系統架構總覽

      ClawGUI-RL:讓GUI模型在環境中穩步提升

      GUI Agent的RL訓練需要與真實設備進行持續交互,截屏、解析、操作、獲得反饋,形成完整的episode。這意味著訓練基礎設施不僅需要模型訓練框架,還需要大規模環境仿真和設備管理能力。ClawGUI-RL是目前開源社區中為數不多的、經過端到端驗證的GUI Agent Online RL解決方案。

      具體來說,ClawGUI-RL將整個訓練基礎設施拆解為三層:環境管理、獎勵設計、策略優化。

      環境層面,所有設備后端(Docker虛擬機和物理手機)被統一抽象為同一套接口,訓練代碼無需區分底層是模擬器還是真機。每個環境遵循「重置→執行→評估→回收」的標準生命周期,配合Spare Server輪轉和周期性重啟,保證長時間訓練的穩定性。

      獎勵層面,ClawGUI-RL采用二元結果獎勵+PRM逐步獎勵的雙層設計。結果獎勵在episode結束時給出成功/失敗的0/1信號,PRM則在每一步操作后根據前后截圖和歷史動作判斷當前操作是否有效推進了任務,兩者相加構成最終獎勵。這種稠密的逐步反饋極大緩解了GUI長序列決策中獎勵稀疏的問題,讓優化器能夠區分哪些中間步驟是有價值的、哪些是無效繞路。

      策略優化層面,ClawGUI-RL支持GRPO、GiGPO等主流強化學習算法,并提供統一的訓練接口,方便研究者根據任務特性靈活切換和對比不同優化策略。



      △ClawGUI-RL架構圖

      虛擬環境與真機訓練

      基于Docker的Android虛擬環境,ClawGUI-RL支持大量虛擬Android環境同時并行運行。內置的Spare Server輪轉機制保證了訓練的魯棒性,當某個容器截圖失敗或設備不健康時,系統自動切換至備用服務器,訓練不中斷。團隊提供了經過驗證的端到端真機RL訓練流程,物理手機和云手機均可接入。真機訓練的交互協議與虛擬環境完全一致,為后續大規模云手機訓練鋪平了道路。

      PRM逐步獎勵:不止看結果,每一步都給分

      標準GRPO為整個Episode分配一個單一的優勢分數,成功了就是1,失敗了就是0,中間步驟好不好完全不管。這就像考試只看總分,不知道哪道題做對了哪道做錯了。ClawGUI-RL通過引入過程獎勵模型(PRM)改變了這一點,對每一步操作進行評估,提供更密集的梯度信號,實現更精細的策略優化。

      實驗結果

      以MAI-UI-2B為基座,ClawGUI-2B在MobileWorld基準上的表現:



      幾個關鍵數字:ClawGUI-2B達到17.1 SR,大幅超越MAI-UI-2B基線(11.1),提升幅度達6%。一個2B小模型,達到了接近8B模型的水平。

      ClawGUI-Eval:95.8%復現率,讓評測結果可信

      GUI模型評測領域長期面臨復現一致性的挑戰:不同框架、不同實現細節下,同一模型的評測數字往往存在明顯差異。差個prompt格式、搞混坐標系、調錯分辨率,結果就可能偏差數個百分點。

      ClawGUI-Eval通過標準化的Infer→Judge→Metric三階段流水線系統性地解決了這個問題。



      △ClawGUI-Eval評測框架

      覆蓋6大Benchmark(ScreenSpot-Pro、ScreenSpot-V2、UIVision、MMBench-GUI、OSWorld-G、AndroidControl),支持11+模型(Qwen3-VL、Qwen2.5-VL、UI-TARS、MAI-UI、GUI-G2、UI-Venus、Gemini、Seed 1.8等)。48個有官方基準的格子中成功復現46個,總體復現率95.8%。前沿模型Gemini 3.0 Pro和Seed 1.8在ScreenSpot-Pro上實現100%復現,并首次評測了Gemini 3.1 Pro(85.01)。

      踩坑踩出來的復現Tips

      比數字更有價值的,是團隊總結的關鍵復現經驗,每一條都是用準確率換來的教訓:

      1. 坐標系統不匹配=準確率歸零。Qwen2.5-VL輸出絕對像素坐標,Qwen3-VL輸出[0,1000]歸一化,StepGUI用[0,999],搞混一個就是災難。

      2. 圖文輸入順序(tv vs. vt)可導致數個百分點差異。大部分模型需要圖片在前(vt),MAI-UI需要文本在前(tv),用錯直接崩盤。

      3. 哪怕一句”You are a helpful assistant.”也能帶來約1%的提升。System prompt必須嚴格對齊官方。

      4. Prompt格式必須逐字對齊。措辭微小差異就可能影響結果。

      5. 溫度建議設為0.0。非零溫度影響坐標精度。

      所有推理結果已全部開源,歡迎下載驗證。

      OpenClaw-GUI:一句話控制手機



      GUI智能體真正的價值,在于能夠在用戶手邊的真實設備上運行、幫人完成實際任務。OpenClaw-GUI正是為此而生,把GUI智能體帶到真機上落地。

      基于nanobot框架構建,OpenClaw-GUI實現了通過自然語言控制真實手機。接入飛書、QQ、Telegram、Discord、Slack、釘釘等12+聊天平臺,用戶在聊天窗口發一句指令,Agent就能截屏理解界面、規劃操作路徑、執行點擊和輸入。

      更關鍵的是,OpenClaw-GUI把評測也集成進來了。說一句「幫我測一下qwen3vl在screenspot-pro上的指標」,Agent會自動完成環境檢測→多GPU推理→判分→指標計算→結果對比。這本身就是CLI+GUI協作的絕佳例證,計算密集型工作由CLI高效完成,人機交互和結果呈現依賴GUI。

      核心能力:跨平臺支持Android(ADB)、鴻蒙(HDC)、iOS(XCTest);多模型接入AutoGLM、MAI-UI、GUI-Owl、Qwen-VL、UI-TARS;個性化記憶,自動學習用戶偏好,跨任務持續復用;Episode記錄,每次執行以結構化Episode保存,支持回放與數據集構建;Web UI基于Gradio,支持設備管理、任務執行與記憶查看。

      展望:GUI的故事遠未結束

      2026年,CLI Agent無疑是最火的賽道。Claude Code、Gemini CLI、CodeBuddy……一個自然的問題浮現:GUI智能體還有必要嗎?

      研究團隊傾向于認為:GUI的故事遠沒有結束,CLI+GUI的融合或許是通往通用Agent的一條重要路徑。

      人類短期內離不開GUI。從文字到圖片到視頻,越容易被感知的媒介越具備傳播優勢。外賣、打車、社交、購物,移動互聯網絕大多數的交互發生在圖形界面上。至少在可見的未來,GUI仍將是數字世界的主要入口。

      不是所有App都有API。微信、銀行、大量企業內部系統只有圖形界面。CLI面向Agent執行,高效干活;GUI面向人類理解,感知和交互。兩者更像是互補關系而非替代關系。

      GUI的「可見性」提供了一種獨特的信任機制。假如Agent在執行任務時涉及支付操作,CLI以用戶看不見的方式直接完成了付款,造成的損失誰來承擔?GUI操作到關鍵步驟時,用戶可以看到屏幕上正在發生什么、隨時介入。這種可控性可能是純CLI方案較難提供的。

      Online RL的工程挑戰遠未被解決。GUI Agent的RL訓練需要與真實App交互,登錄驗證、反爬機制、動態UI變化,大規模RL Scaling的穩定性仍是行業難題。ClawGUI-RL的Spare Server輪轉和周期性重啟機制是一個初步的探索,距離大規模生產級訓練還有很長的路要走。

      路線圖

      ClawGUI的規劃不止于此:OpenClaw-GUI支持自然語言手機操控與評測;ClawGUI-RL可擴展的Mobile Online RL訓練基礎設施,支持PRM逐步獎勵;ClawGUI-Eval標準化評測套件,6個Benchmark,95%+復現率;ClawGUI-2B達到17.1 SR(基線11.1);后續將推進真機部署OpenClaw-GUI,直接部署在手機上避免云端隱私泄露;Desktop / Web Online RL,將在線RL擴展至桌面和網頁環境;以及基于OPD算法的實時強化學習。

      總結

      ClawGUI不是要證明GUI比CLI更好,而是想探索一種可能性:訓練、評測、部署打通之后,GUI智能體能走多遠?CLI和GUI的協作又能釋放出怎樣的潛力?

      ClawGUI-RL讓GUI Agent的在線訓練從虛擬環境走向真機,ClawGUI-Eval為社區提供了一套可信賴的評測標準,OpenClaw-GUI把GUI智能體從研究帶到了真實設備。

      項目已開源,歡迎Star支持,讓更多人看到GUI Agent的可能性。

      項目地址:
      https://github.com/ZJU-REAL/ClawGUI

      項目主頁:
      https://zju-real.github.io/ClawGUI-Page/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      港媒:中國正從伊朗的廢墟中汲取關于“持久戰”的冷酷經驗

      港媒:中國正從伊朗的廢墟中汲取關于“持久戰”的冷酷經驗

      矚望云霄
      2026-04-24 23:33:38
      廣東球隊大豐收!雙MVP+最佳進步+最佳一陣,杜鋒功勞不小

      廣東球隊大豐收!雙MVP+最佳進步+最佳一陣,杜鋒功勞不小

      多特體育說
      2026-04-26 22:43:38
      連續8年無緣世錦賽8強!丁俊暉輸球原因曝光,趙心童對手已確定

      連續8年無緣世錦賽8強!丁俊暉輸球原因曝光,趙心童對手已確定

      侃球熊弟
      2026-04-26 19:55:28
      55歲上海炒股冠軍罕見發聲:尾盤30分鐘買次日必漲股票,從不例外

      55歲上海炒股冠軍罕見發聲:尾盤30分鐘買次日必漲股票,從不例外

      股經縱橫談
      2026-04-11 16:40:48
      齊沃:2-0時我沒能做好自己的工作;再好的教練都需要球員支持

      齊沃:2-0時我沒能做好自己的工作;再好的教練都需要球員支持

      懂球帝
      2026-04-27 03:07:20
      61歲,從“二級教授”到“階下囚”,給所有人敲響了警鐘

      61歲,從“二級教授”到“階下囚”,給所有人敲響了警鐘

      教師吧
      2026-04-26 16:56:24
      成都火災5死2傷后續,多位知情人講述真相,當晚的起火源頭被公開

      成都火災5死2傷后續,多位知情人講述真相,當晚的起火源頭被公開

      離離言幾許
      2026-04-25 23:21:21
      飛得到處都是!最近深圳街頭大量出現,有網友一家三口遭殃!這些人快遠離

      飛得到處都是!最近深圳街頭大量出現,有網友一家三口遭殃!這些人快遠離

      南方都市報
      2026-04-26 23:57:15
      50個冷門冷知識,知道10個就很厲害

      50個冷門冷知識,知道10個就很厲害

      心中的麥田
      2026-03-31 21:23:41
      內分泌科主任忠告:這4種不舒服其實是糖尿病,千萬別大意,速看

      內分泌科主任忠告:這4種不舒服其實是糖尿病,千萬別大意,速看

      今日養生之道
      2026-04-26 20:44:20
      受權發布|中共中央辦公廳 國務院辦公廳關于加強新就業群體服務管理的意見

      受權發布|中共中央辦公廳 國務院辦公廳關于加強新就業群體服務管理的意見

      新華社
      2026-04-26 17:05:02
      又創新低,萬科A已跌90%,50萬股東騎虎難下,補倉還是止損?

      又創新低,萬科A已跌90%,50萬股東騎虎難下,補倉還是止損?

      丁丁鯉史紀
      2026-04-26 16:43:58
      曾獲山西省五一勞動獎章的49歲局長猝死,被認定為因公犧牲,遺體告別儀式三天后舉行

      曾獲山西省五一勞動獎章的49歲局長猝死,被認定為因公犧牲,遺體告別儀式三天后舉行

      極目新聞
      2026-04-26 20:01:20
      東方甄選“F4”出走,矛頭直指新任管理層,俞敏洪力挺的新CEO,為何與老將難共存?

      東方甄選“F4”出走,矛頭直指新任管理層,俞敏洪力挺的新CEO,為何與老將難共存?

      紅星新聞
      2026-04-26 19:39:59
      風水輪流轉!分手13年熊黛林首談前任,郭富城終究淪為全網笑話

      風水輪流轉!分手13年熊黛林首談前任,郭富城終究淪為全網笑話

      一盅情懷
      2026-04-25 16:37:25
      湖南25歲女孩抗癌失敗去世,確診才5個月,原打算今年結婚

      湖南25歲女孩抗癌失敗去世,確診才5個月,原打算今年結婚

      九方魚論
      2026-04-27 03:22:39
      外媒炸鍋了!當著日本航母的面,055竟然發射鷹擊-20?

      外媒炸鍋了!當著日本航母的面,055竟然發射鷹擊-20?

      走進事件的中心
      2026-04-26 22:43:47
      命懸一線!掘金96-112慘敗森林狼,大比分1-3,約基奇引沖突!

      命懸一線!掘金96-112慘敗森林狼,大比分1-3,約基奇引沖突!

      林子說事
      2026-04-27 03:17:11
      睡遍好萊塢的種馬影帝:性欲成癮每天與情人交歡,私生子多達25人

      睡遍好萊塢的種馬影帝:性欲成癮每天與情人交歡,私生子多達25人

      錢小刀娛樂
      2026-04-15 21:30:57
      國家一級女演員陳麗云被逮捕!

      國家一級女演員陳麗云被逮捕!

      許三歲
      2026-03-28 09:24:30
      2026-04-27 04:32:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12536文章數 176458關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

      頭條要聞

      特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      僅次《指環王》的美劇,有第二季

      財經要聞

      事關新就業群體,中辦、國辦發文

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      教育
      旅游
      健康
      手機
      房產

      教育要聞

      超燃暴擊!孩子們為啥都樂翻天了?!這所人附系學校揭秘

      旅游要聞

      2000余場特色活動邀市民歡度五一

      干細胞如何讓燒燙傷皮膚"再生"?

      手機要聞

      vivo Y600 Pro配備 6.83 英寸 1.5K 護眼屏,新機明天見!

      房產要聞

      新一輪教育大爆發來了!海口,開始瘋狂建學校!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产毛片欧美毛片久久久| 亚洲乱码日产精品bd在线下载| 亚洲乱妇老熟女爽到高潮的片| xxxx欧美| 免费视频成人片在线观看| 内射国产内射夫妻免费频道| 久久www视频| 思热99re视热频这里只精品| 撸色网| 人妻在线免费公开视频| 亚洲精品成人片在线观看精品字幕 | jizz日本版| 欧美人与动zozo在线播放| 亚洲第一国产综合| 国产精品香蕉在线| 成 人片 黄 色 大 片| 建德市| 野花社区视频www官网| 日韩成人A级毛片| 狠狠躁日日躁| www.51vv.com| 日本精品αv中文字幕| 国产极品精品自在线不卡| 中文字幕无码久久精品| 欧美色网| 自拍亚洲欧美精品| 国产免费无遮挡吸乳视频| 永久免费AV无码网站大全| 国产无吗一区二区三区在线欢| 人人色人人| 午夜精品久久久久久99热| 国内精品久久人妻无码AV探花影视| av无码天堂| 天天躁日日躁狠狠躁av麻豆| 国产在线不卡一区二区三区| 无码人妻一区二区三区线花季传件| 丰满人妻一区二区三,| 一区二区淫网| 日本中文字幕在线播放| 国产人妻人伦精品婷婷| 麻豆国产人妻欲求不满|