蘋果推出 Ferret-UI Lite：一款用于查看和控制 UI 的端側(cè) AI 模型

2026-03-04 16:22:01　來源: InfoQ

北京舉報

分享至

作者 | Sergio De Simone

譯者 | 明知山

蘋果公司推出的 Ferret?UI Lite 是一款針對移動與桌面屏幕優(yōu)化的 30 億參數(shù)模型，可解析屏幕圖像、理解圖標(biāo)與文本等 UI 元素，并通過讀取消息、查看健康數(shù)據(jù)等方式與應(yīng)用交互。

該項(xiàng)目致力于構(gòu)建可在移動設(shè)備、網(wǎng)頁及桌面等平臺上直接與圖形用戶界面交互的輕量化端側(cè) GUI 智能體。

研究人員在相關(guān)論文中指出：“相比之下，現(xiàn)有 GUI 智能體方法大多基于大型基礎(chǔ)模型”，例如 GPT 和 Gemini，這讓這類智能體在各類 GUI 導(dǎo)航任務(wù)中具備了“令人印象深刻的能力”。但這也帶來了“建模復(fù)雜、計算成本高、推理耗時較長”等問題，同時還存在延遲更高、隱私性更差、依賴網(wǎng)絡(luò)連接等缺點(diǎn)。這促使研究者著手開發(fā)性能相當(dāng)?shù)妮p量化端到端側(cè)智能體，而這一方向目前仍頗具挑戰(zhàn)。

我們借助面向小模型的優(yōu)化技術(shù)，通過整合來自真實(shí)場景與合成數(shù)據(jù)的多樣化 GUI 數(shù)據(jù)集、結(jié)合思維鏈推理與視覺工具使用來增強(qiáng)推理性能，并采用基于獎勵設(shè)計的強(qiáng)化學(xué)習(xí)方法，最終構(gòu)建出參數(shù)規(guī)模為 30 億的 Ferret-UI Lite 智能體。

研究人員表示，F(xiàn)erret-UI Lite 通過屏幕圖像裁剪與思維鏈提示詞提升了對含小型 UI 元素的復(fù)雜界面布局的理解精度。該方法實(shí)現(xiàn)了“與大模型相比具有競爭力、甚至在部分場景下更優(yōu)的性能”：在 GUI 定位任務(wù)（依據(jù)自然語言指令定位并識別特定 UI 元素）方面，ScreenSpot-V2 基準(zhǔn)測試達(dá)到了 91.6%，ScreenSpot-Pro 達(dá)到了 53.3%，OSWorld-G 達(dá)到了 61.2%；在 GUI 導(dǎo)航任務(wù)方面，AndroidWorld 基準(zhǔn)測試取得 28.0% 的成功率，OSWorld 則達(dá)到了 19.8%。

在訓(xùn)練方面，研究人員采用了兩階段流程：第一階段基于多樣化的真實(shí)與合成 GUI 交互數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)（SFT）；第二階段使用帶可驗(yàn)證獎勵的強(qiáng)化學(xué)習(xí)（RLVR）優(yōu)化任務(wù)成功率，而非單純的模仿學(xué)習(xí)。此外，他們對動作格式進(jìn)行了標(biāo)準(zhǔn)化，并在推理階段采用“放大”與思維鏈推理等技術(shù)，提升模型的感知精度。

研究人員得出結(jié)論：GUI 定位與導(dǎo)航數(shù)據(jù)可相互補(bǔ)充，通過整合多樣化來源的合成數(shù)據(jù)能顯著提升模型在兩類任務(wù)上的性能。此外，盡管思維鏈推理與視覺工具帶來了一定提升，但增益有限；同時，小模型在長程、多步驟任務(wù)上仍表現(xiàn)不佳，且對獎勵設(shè)計較為敏感。

研究人員建議，F(xiàn)erret-UI Lite 可作為端側(cè)智能體，幫助蘋果降低對谷歌云的依賴，同時為 Siri 構(gòu)筑“隱私保護(hù)盾”。

https://www.infoq.com/news/2026/02/apple-ferret-ui-lite-on-device/

聲明：本文為 InfoQ 翻譯，未經(jīng)許可禁止轉(zhuǎn)載。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.