手機可能是首個真正被 AI 接管的終端。全球有數十億智能手機用戶,每天生產著海量的數據。這些數據成為 AI 的燃料,反過來,AI 讓手機更加智能。
當蘋果還在持續評估 Siri 的底層供應商之時,安卓手機廠商已經摩拳擦掌,在能部署 AI 功能的地方都塞上了 AI。無論是字節跳動與手機廠商中興在操作系統層面合作推出的豆包 AI 手機工程樣機,還是智譜開源能夠自動化操作手機界面的 AI Agent 模型 AutoGLM,都引起了市場對 AI 手機或手機 Agent 的高度關注。
按照業界的預期,Agent 將非常深刻地改變在智能終端上的人機交互邏輯。從主動式的 AI 響應對話,到“次拋型”的 APP,千人千面的終端服務將成為可能。
無論是 AI 手機還是在手機中開源 Agent 模型,對于 Agent 應用與終端的普及、提高行業智能體體驗的底線都有正向的影響。開源模型也在一定程度上緩解了終端廠商的數據安全焦慮,并能夠更好地融合進廠商原有的 Agent 助手系統,而非必須“另起爐灶”。與此同時,互聯網應用也獲得了一個強大的基礎,用于開發應用內的自主操控智能體應用。
在當下的實踐中,手機應用主要分為娛樂、查詢和工作三類。相比點外賣、買咖啡這些日常小事,AI 手機里的 Agent 更大的價值可能在于提升工作效率——幫用戶快速搞定那些原本復雜耗時的任務,比如深度信息搜索、全網比價購物、個人數據查詢管理等。這些事情以前可能要折騰半天,現在 Agent 能幫你幾分鐘就解決。
例如,Agent 可以通過整理手機中的聊天記錄、照片視頻、購物歷史等數據,幫你回憶某段時間的生活軌跡或重要事件。
然而,現在移動終端面臨的核心問題是:缺乏統一的 Agent 生態系統,無法有效打通不同應用之間的功能調用。加上行業內尚未就 Agent 生態標準形成統一共識,這些因素共同導致 AI 手機很難通過應用工具調用的方式實現真正的智能操作。
因此,為了讓手機 Agent 能夠通用地使用不同應用,目前只能“曲線救國”——通過圖形用戶界面(GUI,Graphical User Interface)的方式,模擬人手操作來控制手機。操作邏輯其實就是多模態理解:先看懂手機當前的屏幕截圖,然后像人一樣去點擊相應的 APP 和按鈕,最后完成具體任務。
這種方式適用性很強,理論上能操作各種 APP。但問題是移動設備的算力和存儲有限,面臨兩難選擇:7B 以下的小模型處理復雜 GUI 任務力不從心;而 7B 以上的大模型雖然功能強大,但體積太大、成本太高,在手機上跑起來很困難。
AI 手機的路線之爭:云端還是端側?
目前,AI 手機(包括手機 Agent)主要分為三條技術路線:純云端模型、純端側模型和端云協同模型。
純云端模型多用于移動端(例如 AI 手機等)需要多個步驟和任務部署的復雜任務。另外,在多 APP 操作的場景下,由于任務相對較難,需要較強的推理能力和多模態理解,也會更多地使用云端模型。
盡管云端模型整體性能效果比端側模型強,但問題在于數據存放在云端,面臨包括照片、視頻、聊天信息、郵件等在內的數據隱私問題。此外,高成本和帶寬也是不容忽視的關鍵問題。因此,在一些涉及個人數據、隱私性較強的場景則需要純端側模型。對于端云協同框架,則適用于云端和端側能力差別不顯著的場景。
一個關鍵的問題付出水面:在手機這樣算力、能耗和隱私都極度受限的終端上,是否真的存在一種現實解法——既不過度依賴云端,又能跑得動 GUI Agent?
近期,香港大學黃超教授團隊給出了一個平衡成本和性能的新方案,我們從這個案例中或許可以看到一些啟發。研究團隊開源了一個叫 OpenPhone 的項目(Mobile Agentic Foundation Models)[1]。在該項目中,不僅開源了一個純端側 3B 尺寸的小模型,還提供了一套端云協同的方案,這樣既能在隱私敏感的場景下用本地模型處理,又能在隱私不敏感的復雜任務上調用云端大模型來保證完成質量。
考慮手機的能耗限制和實際部署的可能性,研究人員基于開源的 Qwen2.5-VL-3B 模型和自動化生成的 GUI 數據,通過監督微調和強化學習策略實現了與通用的 7B 模型相當的性能。
![]()
(來源:arXiv)
OpenPhone 還引入了一種類似于思維鏈(CoT,Chain of Thought)的長推理機制。該機制的“巧妙之處”在于,將包括屏幕狀態、任務進度和推理過程等在內的每一步信息,從存儲原始高分辨率截圖壓縮成精簡的文本描述,有效地降低了歷史上下文的存儲負擔,從而實現了 Agent 的長期反思以及決策能力。
在 138 項手機任務的測試中,OpenPhone 在性能接近 9B 模型的情況下,速度提升了 4 倍。“從端側測試結果來看,訓練數據對于 GUI Agent 的表現至關重要,OpenPhone 提供了一套可以最大化人工標記數據價值的數據生成管道,利用有限的數據來盡可能增強 GUI Agent 的能力。”黃超告訴 DeepTech。
該研究證明,盡管小模型在泛化能力上不如大模型,但其在手機 Agent 場景中,可通過長推理等方式激發小模型的執行任務能力,其在移動端的潛力同樣不容忽視。
![]()
圖丨 OpenPhone 的總體框架(來源:arXiv)
黃超解釋道:“在 OpenPhone 項目中,端云協同框架不僅可節約模型本身的 token 開銷,還能降低成本。但是,如果模型云端效果顯著好于端側,則依然會采用云端模型來進行操作。”
研究團隊坦言,該框架在實際部署過程中,可能會面臨大量工程性的優化問題。近期,他們也在和企業界溝通探討未來合作的方式。“盡管目前 AI 手機的大部分解決方案依賴于云端,但業界對端側突破仍寄予厚望。從我們與企業的交流來看,他們更傾向于在端側解決,云端可能只是當前的權宜之計。”黃超表示。
可以看到,端云協同是在當下平衡隱私和效果(成功率)的一個比較可行的方案。如果不考慮能耗和終端部署情況,端側處理最為理想,并能幫設備廠商節約云端算力。未來,端云協同仍會是一個比較理想的范式。
業內人士告訴 DeepTech,端云協同長期來看是最佳選擇,不過短期內受制于端側芯片算力和內存限制,端上不太可能完整運行所有 AI 手機需要的模型功能,仍需要較長的時間和行業內的軟硬協同發展。
因此,比較理想的狀態自然是簡單任務能路由到端側直接運行,復雜任務路由到云端執行,但是實現這樣的目標需要先跑通 AI 手機生態實現意圖理解的數據飛輪,模型才可能將來做到這一目標。
AI 手機真正的難題:誰來開放操作系統的權限?
回到一個 AI 手機繞不過的問題:包括社交軟件、操作軟件或信息查詢軟件在內的主流 APP,會禁止手機 Agent 的訪問權限。
從智能手機的角度來看,如果用戶通過手機 Agent 來操作所有 APP,即通過 GUI 方式進行訪問,那么 APP 有可能喪失流量入口,直接導致 APP 賴以為生的廣告價值歸零。
有專家指出,現在的問題在于,整個移動端的 AI 手機整體生態會往哪里走,可能取決于手機廠商的戰略制定。總體來看,解決這個問題有兩種方案:一是 AI 手機廠商有一套自己的生態,二是未來可能也會涉及到流量入口的合作。
在 DeepTech 與幾位業內人士的交流中,普遍認為 AI 手機的生態并非僅依賴某幾家企業或技術進步的問題,而是整個行業共同面臨的生態問題,包括技術提供方(例如 AI 助手能力提供方、操作系統廠商、硬件供應鏈模型企業)、應用與服務方(例如端硬件、互聯網應用)、用戶、開發者和監管機構等。
對于手機操作系統本身的權限開放,業內人士指出,需要謹慎但堅定的推動,不宜操之過急但也萬不可故步自封。其類似自動駕駛上路的發展,可以考慮在滿足審計安全要求下,通過試點硬件產品和應用場景開放合作,逐步推動相關場景落地和教育,并且同步建設起更完整的生態機制。
談及在操作系統層面兼顧支持高效模型調度、有效管理本地安全權限以及保障用戶隱私策略的策略,一位業內人士告訴 DeepTech,這是一個較復雜的問題,短期來看需要先建立 Agent 與用戶、系統和應用之間的互信授權機制,同時建立起關于 Agent 的審計與安全柵欄,明確智能體“上路”的水平要求和安全底線。長期來看,該方向的發展極大程度取決于 AI 和大模型本身的發展進度,需要審時度勢地考慮實際發展情況進行決策。
此外還需要看到的是,無論是云端還是端側模型,AI 手機任務的成功率目前尚不及人類水平,未來還需要在準確率和可靠性方面同步提升。并且,純 GUI Agent 整體響應速度還有很大的提升空間。
黃超認為,未來模型上下文協議(MCP,Model Context Protocol)生態輔助 GUI 作為解決方案,有望提升手機 Agent 的整體響應速度和準確率。“就像智能手機需要 APP Store,AI 手機也需要類似的平臺,讓整個社區都活躍起來貢獻高質量的 MCP,再去調用它們。從生態角度來看,APP 只有保持開放狀態并放出自己的 MCP,構建一套更加完善高效的合作模式,才能守住自己的流量,否則流量也有可能會被其他類似 APP 搶走。未來應用可能會呈現出兩種交互模式:一種是面向智能體的交互,另一種是面向人類的交互。”
可見,AI 手機真正廣泛應用的標志,不在于模型多強,而是不同 APP 應用廠商如何共建手機智能體的環境。當然,這同樣需要整個生態系統共同推動技術的發展和落地。
參考資料:
1.https://arxiv.org/abs/2510.22009v1
排版:劉雅坤
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.