![]()
這項由微信AI團隊主導的研究發表于2026年2月的arXiv預印本平臺,論文編號為arXiv:2602.06391v1,有興趣深入了解的讀者可以通過該編號查詢完整論文。
想象一下,如果你的電腦能夠像真人助手一樣,不僅能"看懂"屏幕上的各種按鈕、菜單和文本框,還能準確無誤地幫你點擊、輸入和操作,那會是怎樣的體驗?微信AI團隊的最新研究成果POINTS-GUI-G就像是給計算機裝上了一雙"慧眼"和一雙"巧手",讓它能夠在復雜的軟件界面中游刃有余。
這項研究的核心問題其實很簡單:如何讓計算機準確理解屏幕上顯示的內容,并且能夠精確定位到需要操作的位置。就像人類看到一個網頁時,能夠瞬間識別出"登錄按鈕在右上角,搜索框在頁面中央"一樣,POINTS-GUI-G要做的就是讓計算機也擁有這種能力。
研究團隊選擇了一個特別的起點——他們沒有使用那些已經具備強大視覺定位能力的現成模型,而是從一個幾乎沒有定位能力的基礎模型POINTS-1.5開始。這就像是選擇從零開始培養一個新手,而不是在已經成熟的專家基礎上進行改進。這種做法的好處是能夠完全掌握技術發展的每一個環節,真正理解什么方法最有效。
整個研究過程就像是精心設計的三步訓練方案。第一步是"數據工程",研究團隊收集了大量不同來源的界面截圖和操作指令,但這些原始數據就像是來自不同方言區的人說話——格式不統一,質量參差不齊。他們需要把這些"方言"統一成標準的"普通話",去掉那些錯誤的標注,還要專門挑選出那些特別有挑戰性的復雜界面來訓練模型。
第二步是"訓練策略優化"。研究團隊發現了一個經常被忽視但極其重要的問題:訓練時使用的圖片分辨率和實際使用時的分辨率不匹配。這就像是一個人一直在小屏幕手機上練習打字,突然換到大屏幕電腦上就找不到鍵盤位置了。為了解決這個問題,他們既提高了訓練時的圖片分辨率,也在實際使用時對圖片大小進行了限制。
第三步是"強化學習"。這一步特別有意思,就像是給計算機安排了一個"實習期",讓它在各種界面上反復練習,每次操作成功就給獎勵,操作錯誤就要反思改進。與其他需要計算機"邊想邊做"的任務不同,界面操作的對錯非常明確——點對了就是對,點錯了就是錯,這種明確的反饋讓計算機能夠快速學習改進。
在數據處理方面,研究團隊遇到的第一個挑戰是如何處理各種不同格式的訓練數據。現有的界面操作數據就像是從世界各地收集來的菜譜——有的用克做單位,有的用磅,有的詳細到每一個步驟,有的只給大概的描述。研究團隊需要把這些"菜譜"統一成一種標準格式,讓計算機能夠理解。他們將所有的坐標位置都轉換成0到1之間的數值,就像是把所有地址都轉換成統一的GPS坐標系統。
更重要的是,研究團隊還開發了一套自動篩選系統來清理錯誤數據。他們使用另一個專門識別界面元素的工具來檢查每個標注是否準確。如果一個訓練樣本說"登錄按鈕在坐標(0.8, 0.2)",但實際檢測發現那個位置什么都沒有,這個樣本就會被篩掉。這就像是有一個質檢員在檢查每份菜譜是否正確。
為了讓訓練更有挑戰性,研究團隊還專門篩選出那些復雜的界面場景。他們開發了一個"界面復雜度"評估系統,能夠判斷哪些界面布局更復雜,元素更密集。那些過于簡單的界面——比如只有一個大按鈕的頁面——會被過濾掉,因為這些對訓練沒有太大幫助。這就像是一個武術教練專門挑選有挑戰性的對手來訓練學生,而不是讓學生一直和初學者過招。
研究團隊還創造了兩種全新的訓練數據。第一種是模擬專業軟件界面,比如代碼編輯器、設計軟件等,這些界面通常有很多小按鈕和密集的功能區域。第二種是模擬真實的桌面環境,把多個軟件窗口疊加在一起,制造視覺干擾。這就像是在駕駛訓練中不僅要練習空曠道路,還要練習繁忙路段和復雜路口。
在訓練策略方面,研究團隊做出了一個重要決定:解凍視覺編碼器。在之前的研究中,負責"看圖"的部分通常是固定不變的,只訓練負責"理解和決策"的部分。但研究團隊發現,對于界面操作這種高度依賴視覺精度的任務,需要讓"眼睛"部分也能夠針對性地提升。這就像是不僅要訓練射箭手的瞄準技巧,還要幫他配一副更合適的眼鏡。
圖像分辨率的處理是另一個關鍵突破。研究團隊發現,許多界面操作的失敗都源于訓練和實際使用時的圖像大小不一致。他們的解決方案非常實用:一方面提高訓練時的最大圖像分辨率到3072×3072像素,另一方面在實際使用時將圖像限制在2000×2000像素以內。這種方法在ScreenSpot-Pro測試中帶來了超過10分的性能提升,效果顯著。
強化學習階段是整個訓練過程的精華部分。不同于數學推理或文本生成等任務需要復雜的思維鏈,界面操作任務有一個巨大優勢:結果的對錯非常明確。點擊位置是否正確,輸入是否到位,這些都能得到即時且準確的反饋。研究團隊利用這個優勢,設計了一個非常直接的獎勵機制:操作成功得1分,失敗得0分。
在強化學習的具體實施中,研究團隊采用了群體相對策略優化算法。簡單來說,就是讓模型同時嘗試多種不同的操作策略,然后比較哪些策略效果更好。每個任務讓模型嘗試8種不同的操作方法,然后根據成功率來調整學習方向。這就像是一個學生同時嘗試多種解題方法,老師根據正確率來指導哪種方法值得繼續使用。
為了穩定訓練過程,研究團隊還引入了課程學習策略。他們不是一開始就讓模型面對最困難的界面,而是從相對簡單的場景開始,逐步增加難度。具體來說,他們只選擇那些模型成功率在0%到75%之間的任務進行訓練,過于簡單或過于困難的任務都會被暫時跳過。這種漸進式的學習方法讓模型能夠穩步提升,避免了訓練過程中的大起大落。
研究團隊構建了一個包含13個不同來源數據集的龐大訓練庫。這些數據涵蓋了手機、網頁、桌面軟件等各種不同的界面類型,總共包含數十萬個界面操作樣本。為了增加數據多樣性,他們還專門從DataComp數據集中篩選出包含文字的圖像,使用OCR技術提取文字位置信息,創造出新的文本定位訓練樣本。
整個訓練過程分為兩個階段。第一階段是監督學習,就像傳統的課堂教學一樣,給模型展示正確的操作示例,讓它學習模仿。在這個階段,研究團隊對視覺編碼器使用較小的學習率(1×10^-4),對其他部分使用稍大的學習率(5×10^-5),確保各個組件能夠協調發展。
第二階段是強化學習,模型開始獨立嘗試操作,根據成功失敗的反饋來改進策略。在這個階段,學習率降低到1×10^-5,訓練過程更加謹慎,避免破壞已有的良好表現。每個樣本進行8輪嘗試,總批次大小為64,這樣的設置在訓練效果和計算資源之間找到了最佳平衡點。
研究團隊在五個權威測試基準上驗證了POINTS-GUI-G的性能。在ScreenSpot-v2測試中,該模型達到了95.7分的優異成績,這個測試主要評估模型在移動端、桌面端和網頁端的基礎操作能力。在更具挑戰性的ScreenSpot-Pro測試中,POINTS-GUI-G獲得了59.9分,超越了許多參數規模更大的競爭模型。
特別值得關注的是在OSWorld-G測試中的表現,該測試模擬真實的桌面操作環境,要求模型處理復雜的多窗口、多任務場景。POINTS-GUI-G在這項測試中獲得了66.0分,展現出在復雜桌面環境中的優秀適應能力。在UI-Vision測試中,該模型獲得49.9分,證明了其在處理各種界面指令時的穩健性。
通過詳細的性能分析,研究團隊發現了幾個關鍵的技術突破點。數據工程貢獻了最基礎但也最重要的性能提升,將平均得分從基線的17分提升到43分。解凍視覺編碼器的策略將性能進一步推升到53分,而圖像分辨率優化又帶來了8分的提升。最終,強化學習將整體性能推到了67分的新高度。
在強化學習的訓練動態分析中,研究團隊觀察到了非常健康的學習曲線。獎勵分數在訓練過程中穩步上升并最終趨于穩定,而熵損失則呈現下降趨勢,說明模型的決策越來越確定和精準。這種訓練動態表明強化學習過程既有效又穩定,沒有出現過度訓練或性能回退的問題。
與同類模型的對比分析顯示,POINTS-GUI-G在多個維度上都表現出色。在ScreenSpot-v2的移動端測試中,該模型在文本定位任務上達到99.0%的準確率,在圖標定位任務上達到91.0%的準確率。在桌面端測試中,文本定位準確率達到100%,圖標定位準確率為94.3%。這些數據表明模型在不同類型的界面元素識別上都有很強的能力。
更重要的是,POINTS-GUI-G作為一個8B參數的模型,在性能上不僅超越了許多同等規模的模型,甚至在某些測試中表現優于參數量更大的模型。比如在ScreenSpot-Pro測試中,POINTS-GUI-G的表現超過了OpenCUA-32B這樣的大型模型,充分證明了技術路線和訓練方法的優越性。
在實際應用場景中,POINTS-GUI-G展現出了廣泛的適用性。無論是簡單的網頁瀏覽操作,還是復雜的專業軟件使用,該模型都能準確理解用戶意圖并執行相應操作。在處理CAD軟件、開發工具、創意軟件等專業應用時,模型能夠準確識別密集的工具欄和菜單項。在處理移動應用界面時,模型對各種手勢操作區域的定位也非常精準。
這項研究的意義不僅僅在于技術性能的提升,更在于為GUI智能代理的發展提供了一套完整的技術方案。從數據處理到訓練策略,從性能優化到實際部署,每個環節都有詳細的方法論和實踐經驗。這為其他研究團隊和開發者提供了寶貴的參考。
研究團隊已經將POINTS-GUI-G模型開源,并提供了完整的評估工具套件。這種開放的研究態度不僅推動了學術界的進步,也為產業界的應用落地提供了可能。未來,我們可能會看到更多基于這項技術的智能助手產品,幫助用戶更高效地使用各種軟件工具。
展望未來,GUI智能代理技術還有很大的發展空間。當前的研究主要專注于單次操作的準確性,而實際應用中往往需要執行一系列連續的復雜操作。如何讓代理具備更強的規劃能力和錯誤恢復能力,將是下一步研究的重點方向。此外,如何讓代理更好地理解用戶的高層意圖,而不僅僅是執行具體的操作指令,也是一個值得探索的問題。
這項研究為我們展示了人工智能在人機交互領域的巨大潛力。隨著技術的不斷成熟,我們或許很快就能擁有真正智能的數字助手,它們不僅能聽懂我們的話,還能像人類一樣熟練地操作各種軟件界面,為我們的工作和生活帶來前所未有的便利。
Q&A
Q1:POINTS-GUI-G是什么?
A:POINTS-GUI-G是微信AI團隊開發的一個GUI智能控制模型,它能夠像人類一樣"看懂"計算機界面并精確定位需要操作的位置。該模型可以準確識別屏幕上的按鈕、文本框、菜單等各種界面元素,并執行點擊、輸入等操作。通過創新的三步訓練方案和強化學習技術,POINTS-GUI-G在多個權威測試中取得了優異成績。
Q2:POINTS-GUI-G如何處理不同分辨率的界面圖像?
A:研究團隊發現訓練和使用時的圖像分辨率不匹配是影響性能的重要因素,就像一個人在小屏幕上練習卻要在大屏幕上操作一樣。他們的解決方案是雙向優化:一方面將訓練時的最大圖像分辨率提升到3072×3072像素,另一方面在實際使用時將圖像限制在2000×2000像素以內,這種方法在測試中帶來了超過10分的性能提升。
Q3:POINTS-GUI-G的強化學習訓練有什么特點?
A:POINTS-GUI-G的強化學習具有兩個突出特點。首先是獎勵機制非常明確,操作成功得1分失敗得0分,不像其他AI任務需要復雜的評估標準。其次是采用了課程學習策略,只選擇模型成功率在0%-75%之間的任務進行訓練,既避免過于簡單的任務浪費時間,也避免過于困難的任務挫敗學習積極性,讓模型能夠穩步提升能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.