![]()
作者 | Sergio De Simone
譯者 | 明知山
蘋果公司推出的 Ferret?UI Lite 是一款針對移動與桌面屏幕優(yōu)化的 30 億參數(shù)模型,可解析屏幕圖像、理解圖標(biāo)與文本等 UI 元素,并通過讀取消息、查看健康數(shù)據(jù)等方式與應(yīng)用交互。
該項(xiàng)目致力于構(gòu)建可在移動設(shè)備、網(wǎng)頁及桌面等平臺上直接與圖形用戶界面交互的輕量化端側(cè) GUI 智能體。
研究人員在相關(guān)論文中指出:“相比之下,現(xiàn)有 GUI 智能體方法大多基于大型基礎(chǔ)模型”,例如 GPT 和 Gemini,這讓這類智能體在各類 GUI 導(dǎo)航任務(wù)中具備了“令人印象深刻的能力”。但這也帶來了“建模復(fù)雜、計算成本高、推理耗時較長”等問題,同時還存在延遲更高、隱私性更差、依賴網(wǎng)絡(luò)連接等缺點(diǎn)。這促使研究者著手開發(fā)性能相當(dāng)?shù)妮p量化端到端側(cè)智能體,而這一方向目前仍頗具挑戰(zhàn)。
我們借助面向小模型的優(yōu)化技術(shù),通過整合來自真實(shí)場景與合成數(shù)據(jù)的多樣化 GUI 數(shù)據(jù)集、結(jié)合思維鏈推理與視覺工具使用來增強(qiáng)推理性能,并采用基于獎勵設(shè)計的強(qiáng)化學(xué)習(xí)方法,最終構(gòu)建出參數(shù)規(guī)模為 30 億的 Ferret-UI Lite 智能體。
研究人員表示,F(xiàn)erret-UI Lite 通過屏幕圖像裁剪與思維鏈提示詞提升了對含小型 UI 元素的復(fù)雜界面布局的理解精度。該方法實(shí)現(xiàn)了“與大模型相比具有競爭力、甚至在部分場景下更優(yōu)的性能”:在 GUI 定位任務(wù)(依據(jù)自然語言指令定位并識別特定 UI 元素)方面,ScreenSpot-V2 基準(zhǔn)測試達(dá)到了 91.6%,ScreenSpot-Pro 達(dá)到了 53.3%,OSWorld-G 達(dá)到了 61.2%;在 GUI 導(dǎo)航任務(wù)方面,AndroidWorld 基準(zhǔn)測試取得 28.0% 的成功率,OSWorld 則達(dá)到了 19.8%。
在訓(xùn)練方面,研究人員采用了兩階段流程:第一階段基于多樣化的真實(shí)與合成 GUI 交互數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)(SFT);第二階段使用帶可驗(yàn)證獎勵的強(qiáng)化學(xué)習(xí)(RLVR)優(yōu)化任務(wù)成功率,而非單純的模仿學(xué)習(xí)。此外,他們對動作格式進(jìn)行了標(biāo)準(zhǔn)化,并在推理階段采用“放大”與思維鏈推理等技術(shù),提升模型的感知精度。
研究人員得出結(jié)論:GUI 定位與導(dǎo)航數(shù)據(jù)可相互補(bǔ)充,通過整合多樣化來源的合成數(shù)據(jù)能顯著提升模型在兩類任務(wù)上的性能。此外,盡管思維鏈推理與視覺工具帶來了一定提升,但增益有限;同時,小模型在長程、多步驟任務(wù)上仍表現(xiàn)不佳,且對獎勵設(shè)計較為敏感。
研究人員建議,F(xiàn)erret-UI Lite 可作為端側(cè)智能體,幫助蘋果降低對谷歌云的依賴,同時為 Siri 構(gòu)筑“隱私保護(hù)盾”。
https://www.infoq.com/news/2026/02/apple-ferret-ui-lite-on-device/
聲明:本文為 InfoQ 翻譯,未經(jīng)許可禁止轉(zhuǎn)載。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.