<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      階躍開源4B Agent模型,跑通所有安卓設備,手搓黨一鍵部署

      0
      分享至

      GELab-Zero團隊 投稿
      量子位 | 公眾號 QbitAI

      首次將GUI Agent模型與完整配套基建同步開放,支持手搓黨一鍵部署!

      這就是階躍星辰剛剛開源的GELab-Zero

      其中4B版本的GUI Agent模型在手機端、電腦端等多個GUI榜單上全面刷新同尺寸模型性能紀錄,取得SOTA成績。

      隨著AI在手機等消費終端的普及,Mobile Agent正從“能不能用”邁向“能否規模化落地”。

      GUI Agent是執行能力最強的形態之一。它基于視覺理解即可適配幾乎所有App,無需廠商額外改造,接入成本極低。

      此外,階躍還同步開源了基于真實業務場景的自建評測標準AndroidDaily,以期推動GUI領域模型評測向消費級、規模化應用發展。

      同尺寸性能 SOTA,端到端、輕量化、速度快

      要知道,讓GUI Agent在不同品牌與系統版本的設備上順暢運行并不輕松。

      移動生態的高度碎片化讓開發者需處理多設備ADB連接、依賴安裝、權限配置、推理服務部署、任務編排與回放等繁瑣流程,工程成本高昂,精力難以聚焦在策略創新與體驗設計上。

      要推動移動端Agent真正規模化,必須首先降低開發與使用門檻,讓開發者專注于創造價值,而非重復搭建底層設施。

      基于此,階躍開源了GELab-Zero。

      它主要包含三部分:

      • 一個能在本地運行的GUI Agent模型GELab-Zero-4B-preview
      • 即插即用的完整推理工程基建,解決所有臟活累活
      • 基于真實業務場景的自建評測標準AndroidDaily

      研究團隊在ScreenSpot、OSWorld、MMBench、Android World多個開源基準測試上對GELab-Zero-4B-preview模型進行了全面評估。

      這些基準測試涵蓋了GUI理解、定位、交互等多個維度。

      從測試結果可以看出,GELab-Zero-4B-preview在多項開源基準測試中超越其他主流模型,拿下同尺寸SOTA



      值得一提的是,GELab-Zero-4B-preview的表現還超越了參數量更大的GUI-Owl-32B等模型,性能更優,也更易部署。



      來看一下研究團隊給出的示例場景。

      復雜任務

      場景1:在外賣平臺同時采購跨品類、不同規格和數量的商品。

      Prompt:去餓了么離我最近的盒馬鮮生購買:紅顏草莓300g、秘魯比安卡藍莓125g(果徑18mm)、當季新鮮黃心土豆500g、粉糯貝貝南瓜750g、盒馬大顆粒蝦滑、2瓶盒馬純黑豆豆漿300ml、小王子夏威夷果可可脆120g、盒馬菠菜面、盒馬五香牛肉、5袋好歡螺柳州螺獅粉(加辣加臭)400g、m&m’s牛奶巧克力豆100g

      可以看到,模型精準識別了物品信息,并順暢地完成了多步驟、重復性的購買操作。

      場景2:在企業福利APP中領取餐券。

      Prompt:打開給到App,在我的,下滑尋找,員工權益-奮斗食代,幫我領劵。

      上述示例展示了GELab-Zero-4B-preview執行的能力和范圍具有很強的泛化性,無論在國民級APP還是小眾產品平臺,都可以順利完成任務。

      模糊指令

      場景1:在某個視頻平臺上播放指定演員的經典作品。

      Prompt:在騰訊視頻上找一部成龍的經典動作片播放。

      接到指令后,GELab-Zero-4B-preview自主拆解“經典”這一需求,確定執行標準。

      過程中,模型先打開騰訊視頻,識別并關閉了彈窗,搜索“成龍”后在電影類目中選擇了頁面上成龍評分最高的代表作播放。

      場景2:找一個周末能帶孩子玩的地方。

      Prompt:幫我找個周末能帶孩子去玩的地方。

      接到指令后,模型首先在內容平臺搜索“北京周末帶娃”,然后自主判斷衡量標準后為用戶推薦北京園博園“頑酷奇遇”,并為用戶提煉出該地點的亮點——“有巨型裝置卡通,親子活動豐富”。

      可以看到,GELab-Zero-4B-preview模型能夠很好地執行復雜任務和模糊指令,不僅可以準確、流暢地執行涉及到多步驟、多主體、重復操作的任務,也能對“好看”“適合玩的”“經典”等偏籠統和主觀性的指令進行自主拆解,確定執行路徑和標準。

      GUI+基建=GUI Agent MCP,一鍵拉起部署

      針對GUI智能體,研究人員構建了一整套完整的技術架構體系,可以一鍵拉起獲得類似開源GUI Agent MCP的體驗。

      具體能力如下:

      • 輕量級本地推理
      • 支持4B模型在消費級硬件上運行,兼顧低延遲與隱私。
      • 一鍵任務啟動
      • 提供統一部署流水線,自動處理環境依賴和設備管理。
      • 多設備任務分發
      • 可以分發到多臺手機并記錄交互軌跡,實現可觀測、可復現。
      • 多種Agent模式
      • 涵蓋ReAct閉環、多智能體協作以及定時任務等多種工作模式。



      這些能力讓GELab-Zero能夠靈活應對真實場景的復雜任務流,并為后續擴展提供扎實底座。

      Agent開發者可基于這套基建快速測試新想法、驗證交互策略;企業級用戶則能直接復用這套基建,將MCP能力快速植入到產品業務中。

      自建并開源貼合真實業務場景的評測基準

      此外,研究團隊基于手機、IoT、汽車等行業頭部公司的真實合作案例,建立了高度貼合業務場景的評測基準。

      當前的主流基準測試,大部分聚焦于生產力類應用(如郵件與文檔處理)。

      然而在日常真實場景中,用戶高頻依賴的卻是生活服務類應用,如外賣、打車、社交、支付等,而這部分場景不僅覆蓋面更廣,也更能體現當下GUI Agent 的實用價值。

      為此研究者提出 AndroidDaily,一個面向真實世界、動態演進的多維基準體系

      它聚焦在現代生活六大核心維度:飲食、出行、購物、居住、信息消費、娛樂,并優先選擇在這些類別中具有代表性(高頻使用、應用商店日活排名靠前)的主流應用進行測試,高度還原真實任務執行流程(包括詢問用戶更多信息補充輸入、高危操作請求用戶接管)。

      評測結果顯示,GELab-Zero-4B-preview在AndroidDaily測試中準確率達到73.4% ,在移動端復雜任務中表現優秀。



      為了平衡評估的全面性和執行效率,AndroidDaily采用了靜態評測和端到端評測雙軌評估體系。

      靜態評測考察模型的grounding(界面理解、元素識別)和action規劃能力,用于檢驗其在推理與執行一致性等基礎層面的表現。

      端到端測試重點衡量GUI Agent在真實環境中處理復雜任務時的執行效果與穩定性。

      其中,靜態測試包含3146個actions,提供任務描述和逐步的屏幕截圖,要求Agent預測每一步的動作類型和動作值(如點擊坐標、輸入文本),主要評估數值準確率。

      這種方法無需復雜的工程基礎設施,可以快速、低成本地進行大規模模型迭代和測試。

      而端到端測試包含235個任務,典型任務場景包括出行交通(打車、導航、公共交通等)、購物消費(電商購物、支付、訂單管理等)、社交通訊(消息發送、社交互動等)、內容消費(新聞閱讀、視頻觀看、內容收藏等)、本地服務(外賣、到店服務)等。

      在完全功能化的測試環境(如真實設備或模擬器)中進行,Agent需要從頭到尾自主執行任務,最終以整體任務成功率作為評價指標,能真實反映智能體在復雜環境中的綜合能力。



      團隊表示,希望通過GELab-Zero的開源,進一步降低移動端Agent的開發門檻,讓更多開發者能夠快速構建和驗證自己的想法。

      未來,研究團隊將始終堅持開放、可控、隱私優先的原則,持續優化模型性能、擴展跨平臺支持、豐富生態工具鏈。

      GitHub:
      https://github.com/stepfun-ai/gelab-zero
      抱抱臉:
      https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      SpaceX估值升至8000億美元,超越OpenAI成最大獨角獸。它為啥值這么多?拆解SpaceX的業務飛輪

      SpaceX估值升至8000億美元,超越OpenAI成最大獨角獸。它為啥值這么多?拆解SpaceX的業務飛輪

      問問馬斯克AskMusk
      2025-12-07 21:29:47
      人生建議:不要讓任何人了解你太多

      人生建議:不要讓任何人了解你太多

      詩詞中國
      2025-12-03 19:41:01
      國產女模特172高挑身材,火辣身姿,尺度大

      國產女模特172高挑身材,火辣身姿,尺度大

      傲嬌的馬甲線
      2025-12-05 18:15:51
      飛天茅臺跌破1400元!有經銷商發帖哭訴,我們是在割自己的肉…

      飛天茅臺跌破1400元!有經銷商發帖哭訴,我們是在割自己的肉…

      火山詩話
      2025-12-07 11:09:34
      萬科!遭遇反對

      萬科!遭遇反對

      新浪財經
      2025-12-07 18:26:31
      邵佳一首秀時間敲定,新國足大換血,00后挑大梁,武磊或將淡出

      邵佳一首秀時間敲定,新國足大換血,00后挑大梁,武磊或將淡出

      綠茵舞著
      2025-12-07 23:40:04
      一覺醒來,不僅賣電車的傻眼了,就連生產廠家也驚呆了!

      一覺醒來,不僅賣電車的傻眼了,就連生產廠家也驚呆了!

      今朝牛馬
      2025-12-06 12:21:16
      可恥!剛剛,孟山都騙了全世界25年的論文,終于被強制撤稿了!

      可恥!剛剛,孟山都騙了全世界25年的論文,終于被強制撤稿了!

      徐德文科學頻道
      2025-12-07 19:58:11
      每一口飲料都傷肝臟!哈佛大學最新:含糖、代糖都傷肝,每天多喝一罐,肝病死亡風險增加41%

      每一口飲料都傷肝臟!哈佛大學最新:含糖、代糖都傷肝,每天多喝一罐,肝病死亡風險增加41%

      醫諾維
      2025-12-06 14:56:07
      4換1!打劫式交易!灰熊中鋒點評楊瀚森

      4換1!打劫式交易!灰熊中鋒點評楊瀚森

      籃球實戰寶典
      2025-12-07 22:01:44
      客場10連勝再創紀錄,但主場已4連敗!約基奇28+9+11,穆雷34分

      客場10連勝再創紀錄,但主場已4連敗!約基奇28+9+11,穆雷34分

      無術不學
      2025-12-08 10:02:12
      長城魏牌回應“藍山車型儀表裝飾板出現局部裂紋”

      長城魏牌回應“藍山車型儀表裝飾板出現局部裂紋”

      IT之家
      2025-12-07 16:38:27
      超市開張!三大核心進入交易貨架,全力爭取選秀權,這隊徹底重建

      超市開張!三大核心進入交易貨架,全力爭取選秀權,這隊徹底重建

      大衛的籃球故事
      2025-12-08 12:19:52
      法媒:從歐洲列強到過氣戲子,中國變了,中國人眼里的法國也變了

      法媒:從歐洲列強到過氣戲子,中國變了,中國人眼里的法國也變了

      小青年淥淥
      2025-12-07 19:23:54
      詹姆斯創兩大歷史第1神跡,湖人險勝!東契奇3雙,恩比德21中4

      詹姆斯創兩大歷史第1神跡,湖人險勝!東契奇3雙,恩比德21中4

      一將籃球
      2025-12-08 11:55:43
      《瘋狂動物城2》爆火,一輩子怎么活,被一只兔子和狐貍說透了

      《瘋狂動物城2》爆火,一輩子怎么活,被一只兔子和狐貍說透了

      洞見
      2025-12-07 21:13:19
      當你強了:國際海洋法法庭關于未參與南海仲裁案的澄清聲明

      當你強了:國際海洋法法庭關于未參與南海仲裁案的澄清聲明

      小嵩
      2025-12-07 18:00:40
      賽力斯,90億銷售費用之謎!

      賽力斯,90億銷售費用之謎!

      新浪財經
      2025-12-06 18:52:11
      不準踏入中國市場一步?我國下達“逐客令”,三星絕望:放過我們

      不準踏入中國市場一步?我國下達“逐客令”,三星絕望:放過我們

      玲兒愛唱歌
      2025-12-04 05:13:59
      新華社爆錘小米:膽量為何這么大?

      新華社爆錘小米:膽量為何這么大?

      微評社
      2025-12-06 20:48:27
      2025-12-08 12:31:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11820文章數 176340關注度
      往期回顧 全部

      科技要聞

      萬億蘋果,正在經歷一場嚴重的“大失血”

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      健康
      手機
      游戲
      親子
      軍事航空

      甲狀腺結節到這個程度,該穿刺了!

      手機要聞

      iPhone 17系列太恐怖,這一組數據就是證明

      超真實的沉浸式中世紀鍛造模擬器

      親子要聞

      家長帶孩子跑了很多家醫院,你是我們最后的希望

      軍事要聞

      日本稱中方雷達照射日戰機 國防部回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产无遮挡又黄又爽在线视频| 性欧美videofree高清精品| 欧美浓毛大泬视频| 亚洲午夜福利| 风流老熟女一区二区三区| 精品人妻一区二区三区浪潮在线| 日韩精品成人一区二区三区| 国精产品一区一区三区| 国产99久一区二区三区a片 | 国产在线精品熟女| 莱西市| 国产日产免费高清欧美一区| 无码人妻一区二区三区免费九色| 亚洲gv天堂gv无码男同| 国产浮力第一页草草影院| 91丨国产丨熟女熟女| 国产最新网址| 亚洲欧美v国产蜜芽tv| 成人精品一区二区三区在线观看| 天堂中文在线资源| 福贡县| jjzz国产| 日日撸夜夜干| 好吊色欧美一区二区三区视频| 葫芦岛市| 色图综合网| 丰满熟女乱婬A片六区| 丝袜美腿在线观看播放一区| 日韩经典午夜福利发布| av鲁丝一区鲁丝二区鲁丝三区| 少妇人妻邻居| 99精品国产一区二区三区| 亚洲欧美中文字幕| 赫章县| 兴义市| 亚洲欧美另类在线| 欧洲熟妇色| 久久中文字幕人妻| 日韩成人无码影院| 国产免费视频一区二区| 无码一卡二卡|