前段時間,豆包手機助手「橫空出世」,給國內移動互聯網生態帶來了不小的沖擊,同時也因為系統級的特殊權限要求而引發了不少爭議。不過就像前幾天文章中提到的那樣,正是這種「爭議」,推動著 AI 手機行業的發展和進步。
![]()
圖片來源:豆包手機助手
就在大家還在爭論「AI 能不能操作手機」時,智譜突然把行業往前推了一大步。2025 年 12 月 9 日,智譜宣布開源其核心 AI Agent 模型 AutoGLM,任何廠商、任何設備、任何開發者,都可以基于它復現一個能看懂屏幕、能點能滑、能輸入的 AI Agent。
![]()
圖片來源:github
而在雷科技看來,這件事的意義遠不止「開源模型」四個字。
業內首個 Phone Use Agent 強在哪?
在大多數人的認知里,AI 助手能聊天、能總結、能搜索,這些能力已不足為奇,行業內多一個或少一個這類工具,差異并不大。但 AutoGLM 不一樣,它不是用來聊天、回答問題或畫圖的 AI-Agent,而是 AI 能力組件的一部分。用更直接的話來說,AutoGLM 是 AI 的眼睛,是一個能看懂屏幕并完成任務的 AI。
不同于還有些遙遠的 MCP 方案,AutoGLM 不依賴 App 源碼,也不需要開發者額外為它適配標簽,而是像人一樣觀看屏幕、理解按鈕含義、推斷當前界面邏輯,再去完成下一步操作。
在之前的文章中,我們提到過「AI 操作手機」的傳統方案離不開無障礙標簽或開發者接口,但因為大多數開發者都不在意無障礙標簽,傳統的 AI Agent 很難理解當前界面有哪些可以交互的地方。而 AutoGLM 采用的「GUI-Agent」可以繞開這種對開發人員的依賴,讓模型直接對著屏幕畫面做判斷。
![]()
圖片來源:智譜
理解之后,執行也是 AI 的下一個挑戰。很多人以為執行只是一個「點擊」動作,但在真實場景里,這是一套連續決策。按鈕到底是不是當前能點的?彈窗和底部菜單的關系如何?頁面跳轉是否成功?是否需要回退?流程中斷時該從哪里繼續?這不是簡單的腳本錄制能解決的,而需要模型具備自我糾錯、自我規劃的能力。AI 行業對這種連續的長任務起了一個非常直觀的名字——任務鏈。
而任務鏈恰恰也是 AutoGLM 這種 GUI-Agent 方案的傳統優勢——AI 不需要順著錄好的流程走,而是理解畫面后自主規劃操作路徑,能在幾十步的長任務鏈中保持穩定工作,而不是像早期的 Agent 那樣走兩步就迷路。
更關鍵的是,AutoGLM 是一個開源模型,其能力是「可復現、可移植」的。其實在豆包手機助手面世之前,部分手機品牌也探索過類似的 AI Agent 功能,比如我們熟悉的榮耀 Magic 系列。但具備完整 AI 開發能力的手機企業始終還是少數,大多數品牌離不開和外部供應商的合作。
而 AutoGLM 直接把這層能力變成開放組件,讓任何廠商都能在自己的手機上還原這套鏈路。也正是這種通用性,讓 AutoGLM 在 AI 手機的競爭中顯得尤為重要。
AI Agent 的權限爭議被進一步放大
只不過即使是 AutoGLM,也和豆包手機助手一樣面臨著「權限」的問題。
AutoGLM 的開源,讓很多人以為「有了能力,加上廠商合作,就能解決權限問題」。但很遺憾,這種期待并不現實。權限爭議的本質不是技術問題,而是系統規則問題。
事件注入、屏幕讀取、模擬輸入都屬于系統高敏權限,即使手機廠商愿意放開,也無法繞開應用自身的風控體系。風控體系是互聯網平臺的「安全神經系統」,幾十年來都是用來識別腳本和異常行為的。當 AI 的行為特征與腳本高度重合時,誤判就幾乎不可避免。
但話又說回來,盡管 AI 企業和手機品牌不能解決來自 Android 最上層結構的問題,但這種 AI 算法與硬件品牌的合作依舊非常重要。系統層支持意味著 AI 可以在更穩定的環境里執行任務,不用通過各種奇技淫巧去繞過系統限制;應用層支持意味著未來可以建立更標準化的代理識別機制,用白名單、可信認證的方式讓 App 風控知道「這是一個合法代理行為」,而不是未知來源的自動點擊。
![]()
圖片來源:modelcontextprotocol.io
即使從行業發展的角度看,AutoGLM 的加入也讓消費者意識到——AI 并不是只屬于少數企業、少數人的「特權」,而是一個每個人未來都能用上的「新能力」。順著這個角度,雷科技認為智譜開源 AutoGLM 的意義,不是讓「AI 權限」的爭議進一步擴大,而是將「AI 權限」的問題擺在大眾面前,以用戶習慣培養的方式,讓「AI 權限」的爭議更加透明,并最終被大眾認可。
AI巨頭正在奪取AI手機的話語權
至于模型開源后,AI 手機會朝著什么方向發展?雷科技認為,豆包手機助手、AutoGLM 等技術的出現,很可能會在手機行業引入一個全新的「AI 派系」概念。
簡單來說,在硬件同質化的大背景下,未來旗艦手機的競爭力可能會從現在的「品牌差異」「軟件差異」變成未來的「AI 差異」——誰的 Agent 更穩定,誰的 Agent 更聰明,誰能覆蓋更多真實應用,這些都可能成為新的競爭維度。甚至在某些場景下,用戶可能根本不再關心「你手機是什么系統」,而只關心「你的 Agent 到底好不好用」。
![]()
圖片來源:豆包手機助手
毫無疑問,AutoGLM 的開源加速了這種變化。它讓這種新競爭不再只屬于頭部廠商。許多中小手機品牌、操作系統廠商,甚至某些定制硬件設備廠商,都可能因為獲得了完整的手機操作能力,而突然擁有了過去無法觸及的差異化空間。
在雷科技看來,這也意味著未來手機的生態結構將從「品牌 + 系統」變成「品牌 + 系統 + AI」。三者之間的關系會越來越像今天的「芯片架構」,屬于完全獨立、卻決定體驗上限的關鍵層。
開源模型能讓用戶更信任 AI 手機嗎?
其實無論豆包手機助手也好,剛剛開源的 AutoGLM 也好,用戶之所以會「緊張」,說到底還是因為對 AI 的不信任、不了解。經過十余年的發展,智能手機硬件、軟件、交互邏輯已經高度定型。對手機用戶,尤其是崇尚開放的國內 Android 手機用戶來說,我們早已習慣了「一切自己動手」。突然引入一個全新的,和用戶「平起平坐」的 AI Agent,難免會給手機用戶帶來「思想沖擊」。
以小紅書上的分享為例,不少用戶認為「AI 可以查銀行余額」是一件非常夸張的事。但從技術的角度看,這只不過是 AI 在用戶授權下的一次簡單、流程化的操作。
當然了,也有部分用戶并非不信任 AI,而是不信任國內的互聯網環境。對于這種看法,雷科技確實也無能為力:在國內移動互聯網野蠻生長的時期,部分企業確實在便利性和隱私之間選擇了前者。
但從另一個角度看,豆包手機助手與 AutoGLM 開源模型共同掀起的 AI 手機時代,恰好給了國內移動互聯網一次撥亂反正的機會。手機 GUI-Agent 的出現將我們帶到了行業規則的「真空區」,而我們現在最需要做的,恰恰是以先行者的身份,為這個「規則真空區」立下透明且強制的行業規則,讓技術擁有真正展現自身實力、為用戶服務的機會。
從目前的趨勢來看,AI 操作手機已經從單點突破,進入到生態共建階段。權限問題將會被新協議、新鏈路、新機制逐步解決,系統與 App 的關系也會因代理機制的成熟而重新定義。而手機的未來,也會因為 AI 的加入,從「人操作機器」邁向「機器替人操作」的新階段。
如果說智能手機的前二十年,是把桌面互聯網濃縮到手掌里的二十年,那么接下來的十年,很可能是把「操作權」交給 AI 的十年。而 AutoGLM 的開源,恰恰是這場手機轉型的新開端。
雷科技2025“年度燈塔產品榜”評選啟動!致敬堪稱“科技之光、時代大作”的科技產品,歡迎關注~
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.