你見過不用腳本、不用人工干預,自己看屏幕、自己規劃消除路徑、自己點擊的AI玩消消樂嗎?看著它一步步把方塊消掉,比自己玩還解壓——但這不是外掛,而是一個能像人一樣操作手機的通用GUI智能體!它用的是和操作App、填表單、逛網頁完全一樣的視覺理解和操控能力,玩消消樂只是因為它真的學會了“看懂屏幕并操作”這件事。
那問題來了:一個能自己玩消消樂的AI,離替你完成日常手機操作還有多遠?不是那種“幫我設個鬧鐘”的語音助手,而是真正像人一樣,看屏幕、理解界面、滑動點擊、一步步完成復雜任務的智能體?
![]()
當前GUI智能體研究有個繞不開的坎:訓練、評測、部署三個環節像三條平行線,很難形成閉環。模型在仿真環境里練好了,卻沒配套的工程路徑遷到真實設備;不同框架的評測標準不一,數字沒法橫向比;部署到真機,又得重新搭一套基礎設施。三個環節各自為戰,推進成本高得嚇人。
今天,ZJU-REAL團隊帶來了ClawGUI——一個覆蓋GUI智能體在線RL訓練、標準化評測、真機部署完整生命周期的開源框架。它不是三個工具的簡單拼接,而是一條打通的流水線:用ClawGUI-RL訓練,ClawGUI-Eval評測,OpenClaw-GUI部署,端到端驗證。
更牛的是,基于這套流水線,一個僅2B參數的小模型ClawGUI-2B,在MobileWorld基準上拿到17.1 SR,大幅超越基線的11.1,甚至達到了接近8B模型的水平!你敢信?小模型居然能和大模型掰手腕。
GUI智能體的RL訓練需要和真實設備持續交互:截屏、解析、操作、拿反饋,形成完整的訓練閉環。ClawGUI-RL是開源社區里少有的、經過端到端驗證的在線RL解決方案,它把訓練基礎設施拆成三層:
環境管理上,不管是Docker虛擬機還是物理手機,都被抽象成同一套接口,訓練代碼不用區分底層是模擬器還是真機。每個環境都遵循“重置→執行→評估→回收”的標準流程,再加上Spare Server輪轉和周期性重啟,保證長時間訓練不崩。
策略優化上,它支持GRPO、GiGPO等主流強化學習算法,還提供統一訓練接口,方便研究者靈活切換對比。
![]()
GUI模型評測一直有個痛點:同一模型在不同框架下的結果差異大。差個prompt格式、搞混坐標系、調錯分辨率,結果就差好幾個百分點。ClawGUI-Eval用標準化的Infer→Judge→Metric三階段流水線,系統性解決了這個問題。
它覆蓋6大Benchmark(ScreenSpot-Pro、UIVision等),支持11+模型(Qwen3-VL、Gemini等)。48個有官方基準的測試中,成功復現46個,總體復現率95.8%!連前沿模型Gemini 3.0 Pro和Seed 1.8在ScreenSpot-Pro上都實現了100%復現,還首次評測了Gemini 3.1 Pro(85.01分)。
GUI智能體的真正價值,是能在你手邊的真實設備上運行,幫你做實際任務。OpenClaw-GUI就是干這個的——把GUI智能體帶到真機上落地。
它基于nanobot框架,能通過自然語言控制真實手機,還接入了飛書、QQ、Telegram等12+聊天平臺。你在聊天窗口發一句“幫我訂明天早上的外賣”,Agent就會截屏理解界面、規劃操作路徑、執行點擊輸入。
更絕的是,它把評測也集成進來了。你說一句“幫我測一下Qwen3VL在ScreenSpot-Pro上的指標”,Agent會自動完成環境檢測→多GPU推理→判分→結果對比。這本身就是CLI+GUI協作的絕佳例子:計算密集型工作交給CLI高效完成,人機交互和結果呈現靠GUI。
它還支持跨平臺(Android、鴻蒙、iOS)、多模型接入(AutoGLM、Qwen-VL等)、個性化記憶(自動學你的偏好)、Episode記錄(支持回放和數據集構建),還有Gradio的Web UI方便管理設備和任務。
![]()
有人問:2026年CLI Agent這么火,GUI智能體還有必要嗎?團隊認為:GUI的故事遠沒結束,CLI+GUI的融合才是通往通用Agent的重要路徑。
首先,人類短期內離不開GUI。外賣、打車、社交、購物——移動互聯網絕大多數交互都在圖形界面上,至少未來幾年,GUI還是數字世界的主要入口。不是所有App都有API,比如微信、銀行App只有圖形界面。CLI適合Agent高效干活,GUI適合人類感知交互,兩者是互補不是替代。最后,GUI的“可見性”帶來信任:比如Agent執行支付時,你能看到屏幕上的操作,隨時介入,這是純CLI方案很難做到的。
ClawGUI的規劃還在繼續:要把OpenClaw-GUI直接部署在手機上,避免云端隱私泄露;要把在線RL擴展到桌面和網頁環境;還要做基于OPD算法的實時強化學習。
現在ClawGUI已經開源了,項目地址和主頁都放出來了,感興趣的可以去Star支持——畢竟,誰不想早點讓AI幫自己搞定那些煩人的手機操作呢?
你最想讓AI幫你做什么手機任務?是訂外賣、搶票,還是整理相冊?評論區聊聊你的想法吧!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.