<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AAAI 2026 Oral|InfiGUI-G1模型來了,刷新GUI Grounding SOTA

      0
      分享至



      隨著多模態大語言模型(MLLM)的飛速發展,能夠像人類一樣通過視覺輸入操作圖形用戶界面(GUI)的智能體(Agent)正逐漸成為現實。然而,在通往通用計算機控制的道路上,如何讓模型精準地將自然語言指令對應到屏幕上的具體元素 —— 即 GUI Grounding 任務,依然是一大難題。

      現有的方法,特別是基于驗證獎勵的強化學習(RLVR),雖然在提升 “指得準”(空間對齊)方面表現出色,卻往往在 “指得對”(語義對齊)上遭遇瓶頸。模型常常陷入 “自信陷阱”,在復雜的語義場景下無法通過有效探索找到正確的功能圖標。

      針對這一痛點,來自浙江大學、香港理工大學及 InfiX.ai 的研究團隊提出了一種全新的自適應探索策略優化框架(AEPO),并推出了InfiGUI-G1系列模型。該模型通過多答案生成與自適應獎勵機制,徹底打破了傳統 RLVR 的探索瓶頸。僅憑 3B 和 7B 的參數量,InfiGUI-G1 便在多個高難度 GUI 基準測試中刷新了 SOTA,部分指標甚至大幅超越了閉源模型。

      本文將深入介紹這項被 AAAI 2026 接收為 Oral 的工作,解讀其如何通過 “學會探索” 來實現更精準的 GUI 語義理解。



      • 論文標題:InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
      • 論文鏈接:https://arxiv.org/abs/2508.05731
      • 代碼鏈接:https://github.com/InfiXAI/InfiGUI-G1

      從 “空間對齊” 到 “語義對齊”:被忽視的探索瓶頸

      GUI Grounding 任務的核心是將自然語言指令(如 “打開相機”)映射到屏幕上的特定元素坐標。研究團隊指出,這一任務可以解構為兩個正交的維度:

      1. 空間對齊(Spatial Alignment):能否精確地定位到元素(即 “指得準”)。

      2. 語義對齊(Semantic Alignment):能否識別出功能正確的元素(即 “指得對”)。

      現有的 RLVR 方法(如 Naive RLVR)雖然能通過優化坐標生成來提升定位精度,但在面對語義模糊或復雜的指令時卻顯得力不從心。

      例如,當指令是 “使用相機搜索物體” 時,屏幕上可能同時存在普通的 “相機應用” 和具有視覺搜索功能的 “Google Lens”。缺乏深度語義理解的模型往往會自信地死磕 “相機應用” 圖標。由于傳統 RL 依賴當前策略采樣,模型會不斷重復這個高置信度的錯誤,陷入“自信陷阱”(Confidence Trap),從而無法發現真正正確的 “Google Lens” 圖標,導致無法獲得修正語義誤解所需的學習信號。



      GUI Grounding 的主要失敗模式: (a) 空間對齊失敗,(b) 語義對齊失敗

      InfiGUI-G1:自適應探索策略優化(AEPO)

      為了解決這一探索效率低下的問題,InfiGUI-G1 引入了AEPO(Adaptive Exploration Policy Optimization)框架。與傳統的單次回答生成不同,AEPO 旨在通過更廣泛且高效的探索來捕捉低概率但正確的選項。

      AEPO 框架由三個協同工作的核心組件構成:

      1.多答案生成機制(Multi-Answer Generation)傳統的 RL 方法通常只采樣一個動作,一旦模型 “固執己見” 地選錯,梯度的學習信號就會消失。AEPO 強制模型在一次前向傳遞中生成 N 個候選坐標點。這一機制迫使模型跳出單一的高置信度預測,去探索策略分布長尾中的可能性,從而大幅增加了發現正確答案(如上述例子中的 Google Lens)的概率。

      2.自適應探索獎勵(Adaptive Exploration Reward, AER)僅僅生成多個答案是不夠的,如何評價這些答案的質量至關重要。研究團隊基于效率第一性原理(效率 = 效用 / 成本)設計了 AER 函數。

      • 動態激勵:如果模型在靠前的排名(Rank k)就找到了正確答案,給予高額獎勵;如果失敗,則給予較小的懲罰以鼓勵繼續探索。
      • 這種非線性的獎勵設計在失敗時鼓勵模型 “廣撒網”,在成功時引導模型追求 “快準狠”,實現了探索與利用的動態平衡。

      3.共線懲罰(Collinear Penalty)為了防止模型通過生成近似直線的點來 “作弊”(簡單的線性掃描策略),研究引入了共線懲罰。如果生成的多個候選點在幾何上近似共線,將被視為低質量探索并受到嚴厲懲罰。這強制模型在語義空間而非單純的幾何空間中進行多樣化探索。



      AEPO 與 Naive 強化學習基準方法的對比

      實驗結果:小參數量實現性能越級

      研究團隊在 MMBench-GUI、ScreenSpot-Pro、UI-Vision 等五個極具挑戰性的基準上對 InfiGUI-G1(3B 和 7B 版本)進行了全面評估。

      1.綜合性能全面領先:在 MMBench-GUI 基準測試中,InfiGUI-G1-7B 在 Windows、iOS、Android 等多個平臺上的表現均刷新了開源模型的最佳成績。值得注意的是,InfiGUI-G1-7B 在部分指標上甚至優于參數量大得多的 Qwen2.5-VL-72B 和閉源模型 GPT-4o。

      2.攻克高難度語義理解任務ScreenSpot-Pro 基準專門區分了文本類(Text)和圖標類(Icon)任務。結果顯示,InfiGUI-G1 在更依賴語義理解的 “圖標” 任務上提升尤為明顯。這直接證明了 AEPO 策略有效解決了語義對齊的瓶頸,讓模型真正 “看懂” 了抽象圖標背后的功能含義,而不僅僅是進行簡單的文本匹配。

      3.讓 “不可學習” 變得 “可學習”為了驗證 AEPO 是否真的解決了探索難題,研究團隊將樣本按難度分為簡單、中等和困難。實驗發現,InfiGUI-G1 在 “困難” 樣本(即基座模型幾乎無法答對的樣本)上的提升最為巨大,相對 Naive RLVR 基線提升了超過60%。這意味著 AEPO 成功挖掘出了那些以往因缺乏探索而被模型 “放棄” 的長尾知識。



      ScreenSpot-Pro 基準測試的性能對比

      總結與展望

      InfiGUI-G1 的成功表明,GUI 智能體的性能瓶頸不僅僅在于視覺識別能力,更在于如何通過有效的強化學習策略來解決語義對齊問題。通過引入自適應探索機制,InfiGUI-G1 以極高的數據效率和較小的模型規模,實現了超越大模型的 GUI Grounding 能力。這項工作為未來開發更通用、更智能的 GUI 交互助手提供了堅實的技術基礎。

      目前,InfiGUI-G1 的代碼、模型權重及相關資源已在 GitHub 開源,歡迎社區進一步研究與使用。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      服了!臺北球迷贊中國男籃一人:不吼叫也很沉穩,有技術也有帶腦

      服了!臺北球迷贊中國男籃一人:不吼叫也很沉穩,有技術也有帶腦

      南海浪花
      2026-03-02 08:40:05
      場均轟32分6助攻,再度打破歷史紀錄!其實本賽季MVP懸念不大了

      場均轟32分6助攻,再度打破歷史紀錄!其實本賽季MVP懸念不大了

      老梁體育漫談
      2026-03-03 00:36:27
      美國精英想不通:為什么每次要打壓中國時,總有意外發生?

      美國精英想不通:為什么每次要打壓中國時,總有意外發生?

      聚焦真實瞬間
      2026-01-26 10:19:09
      受氣的攜程客服崗擠滿了海歸留學生?“比普華永道工資高、低門檻拿大廠編制”

      受氣的攜程客服崗擠滿了海歸留學生?“比普華永道工資高、低門檻拿大廠編制”

      Vista氫商業
      2026-03-02 14:01:11
      原來,費翔這輩子愛得最深的,不是葉倩文。而是大他7歲的她

      原來,費翔這輩子愛得最深的,不是葉倩文。而是大他7歲的她

      她時尚丫
      2026-03-01 19:26:59
      “全部拆除”將至?2026住建部官宣:這兩類房屋一律拆除

      “全部拆除”將至?2026住建部官宣:這兩類房屋一律拆除

      慧眼看世界哈哈
      2026-03-02 14:13:14
      趙今麥,每個男人都想擁有的女孩樣板。

      趙今麥,每個男人都想擁有的女孩樣板。

      野狐饞師
      2026-02-17 08:50:46
      美國女足前隊長:谷愛凌代表中國參賽是極其聰明的商業決策

      美國女足前隊長:谷愛凌代表中國參賽是極其聰明的商業決策

      魔都姐姐雜談
      2026-03-02 08:25:44
      伊朗發出警告:如果伊朗石油和天然氣設施遭襲擊,作為回應,該地區所有國家的油氣設施都將被摧毀

      伊朗發出警告:如果伊朗石油和天然氣設施遭襲擊,作為回應,該地區所有國家的油氣設施都將被摧毀

      大象新聞
      2026-03-02 15:50:38
      美伊沖突再次升級,全球股市失血,油價金價還能漲多久?|商業微史記

      美伊沖突再次升級,全球股市失血,油價金價還能漲多久?|商業微史記

      界面新聞
      2026-03-02 15:51:05
      伊朗正重走咱大清國老路,向萬國開炮或將引八國聯軍

      伊朗正重走咱大清國老路,向萬國開炮或將引八國聯軍

      貓智深
      2026-03-02 21:27:17
      尷尬!扣12分,春節最冤種司機出現!一粵s車牌兩次駛入應急車道

      尷尬!扣12分,春節最冤種司機出現!一粵s車牌兩次駛入應急車道

      火山詩話
      2026-03-02 10:11:01
      伊朗不值得同情!兩大國親手為他搭好擂臺,卻反手被賣

      伊朗不值得同情!兩大國親手為他搭好擂臺,卻反手被賣

      毛豆論道
      2026-03-02 17:01:06
      伊朗越打越猛!以軍總參謀部被炸,特朗普大怒;沙特堅決否認

      伊朗越打越猛!以軍總參謀部被炸,特朗普大怒;沙特堅決否認

      愛史紀
      2026-03-02 23:22:20
      伊朗革命衛隊連發三份聲明,字字泣血,伊外長表態:希望和美談判

      伊朗革命衛隊連發三份聲明,字字泣血,伊外長表態:希望和美談判

      墨印齋
      2026-03-03 01:00:58
      日本世乒賽大名單落位!女團大調整,2大世界冠軍落選,張本領銜

      日本世乒賽大名單落位!女團大調整,2大世界冠軍落選,張本領銜

      卿子書
      2026-03-02 09:44:06
      英國參戰,中東六國參戰,以軍大白天闖首都轟炸,伊朗即將大亂?

      英國參戰,中東六國參戰,以軍大白天闖首都轟炸,伊朗即將大亂?

      清歡百味
      2026-03-03 00:34:41
      打完還不算,特朗普再加碼,地面部隊成選項,伊朗將迎更狠一輪

      打完還不算,特朗普再加碼,地面部隊成選項,伊朗將迎更狠一輪

      Ck的蜜糖
      2026-03-03 01:04:57
      這個死磕王楚欽的裁判,決賽就沒讓她上場

      這個死磕王楚欽的裁判,決賽就沒讓她上場

      楊仔述
      2026-03-02 11:13:02
      第六波!伊朗再次發起反擊,以總參謀部被炸,特朗普開始“急了”

      第六波!伊朗再次發起反擊,以總參謀部被炸,特朗普開始“急了”

      林子說事
      2026-03-03 00:21:31
      2026-03-03 02:04:50
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12395文章數 142575關注度
      往期回顧 全部

      科技要聞

      蘋果中國官網上線iPhone 17e,4499元起

      頭條要聞

      中國留學生:很多人得知哈梅內伊身亡后 決定盡快撤離

      頭條要聞

      中國留學生:很多人得知哈梅內伊身亡后 決定盡快撤離

      體育要聞

      “想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

      娛樂要聞

      李亞鵬與哥哥和解 只有一條真心話短信

      財經要聞

      油價飆升 美伊沖突將如何攪動全球經濟

      汽車要聞

      國民SUV再添一員 瑞虎7L靜態體驗

      態度原創

      家居
      教育
      親子
      藝術
      公開課

      家居要聞

      萬物互聯 享科技福祉

      教育要聞

      特別猛,但在留學生心中存在感很低的英國大學!

      親子要聞

      45歲這年,我這個二胎媽媽決定做一件“瘋狂”的事

      藝術要聞

      這四位老人的花鳥畫,竟讓人欲罷不能!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版