![]()
作者 | 木子、高允毅
2023 年 4 月,在很多人剛聽說“大模型”這個詞的時候,智譜團隊開始研究一個聽上去不太現(xiàn)實的目標:
讓 AI 真正學會“使用手機”,也就是像真人一樣,對智能手機等設備具有使用能力。
32 個月后,智譜把階段性重要成果、核心 AI Agent 模型:AutoGLM給完整開源了出來,并放話:“每臺手機,都可以成為 AI 手機。”
![]()
AutoGLM 擁有Phone-Use(手機操作)能力,包括點擊、滑動、輸入、截圖理解、流程恢復、噪聲處理……既能穩(wěn)定完成外賣點單,也能完成機票預訂等長達數(shù)十步的復雜操作流程。
目前,AutoGLM 已支持上百個主流 APP,包括以下這些:
![]()
另外,AutoGLM 還能同時在上千臺云端虛擬手機里“練功”,通過強化學習等極大地擴展了 Agent 的準確性和泛化能力。而且它被嚴格關在虛擬設備的安全沙箱里,既能自由試錯,又不會碰到用戶真實手機上的隱私數(shù)據(jù)。
智譜今天開源的是一整套可以“拿來就用”的能力,具體包括:
訓練好的核心模型;
Phone Use 能力框架與工具鏈;
可直接跑通的 Demo,覆蓋 50+ 高頻中文 App;
針對 Android 的適配層與示例工程;
文檔、快速上手指南
模型會以MIT 開源許可證的形式開放,而所有代碼會以Apache-2.0 開源許可證的形式,托管在 GitHub 倉庫中:github.com/zai-org/Open-AutoGLM。
為什么選擇開源?
“從產(chǎn)品的角度,AutoGLM 已經(jīng)可以支撐起很多真實場景;從工程的角度,AutoGLM 的積累足夠?qū)懗梢淮筠夹g(shù)報告。”
為什么選擇在這個時間點把辛辛苦苦做的東西開源呢?看完官方自白,不得不說,智譜的格局還挺大。
首先,智譜認為“AI 手機”是大勢所趨,但這不是一家公司就能完成的任務,更不應該掌握在極少數(shù)廠商手里。
18 年前,蘋果以智能手機奠定生態(tài)時代的范式;Siri 問世后,語音助手成了標配,但功能多停留在查天氣、設鬧鐘,距離真正的智能仍相去甚遠。
如今 AI 登場,變革已成共識。大模型不再只是給手機添點“智能”、做做答問,而是深入系統(tǒng)流程,像全能管家般跨 App 完成訂票、點餐、取消續(xù)費等復雜操作,讓手機真正邁向下一代計算入口。
也正因為這將重塑手機的能力與地位,一旦被少數(shù)廠商壟斷,那么開發(fā)者的創(chuàng)新空間,要看平臺愿不愿意開放接口;而用戶日常生活中最重要的那臺設備,也會越來越像“別人家的入口”。
智譜希望:“AutoGLM 的開源,能把這一層能力變成整個行業(yè)可以共同擁有、共同打磨的公共底座。”
他們把 AutoGLM 比喻成積木,表示可以拿來即用,成為系統(tǒng)的一部分,也可以拆開、重寫、改造,變成新產(chǎn)品的元素。
其次,隱私是 AI 手機一個避不開的問題。
可以想象,如果 AI 可以操控手機,像管家一樣讀取、操作、解決問題,雖然帶來了便利,但也成為了知曉用戶一切根底的隱形炸彈。
像個人微信、支付、聊天記錄、照片相冊、企業(yè)內(nèi)部系統(tǒng)等等信息,必須掌握在用戶自己手里。
智譜的解法是,通過開源和私有化部署,企業(yè)和開發(fā)者可以在自己的合規(guī)環(huán)境中完整掌控數(shù)據(jù)、日志和權(quán)限。也就是說,這個 AI 能力免費發(fā)放,數(shù)據(jù)與隱私永遠留在使用方這一側(cè)。
第三,智譜希望“自己吃過的苦,別人別再吃了”。
“把我們走過的路,變成大家在 Agent 爆發(fā)時代的起跑線。 AutoGLM 是一條很陡的路:我們啃過的技術(shù)難題、踩過的坑、重寫過的框架,在很多場景里都可以復用,也值得被復用。”
他們想在未來看到這樣情形:
商業(yè)層面上,有團隊因為 AutoGLM,做出真正意義上的 AI 原生手機;
技術(shù)層面上,有研究者因為其中某個模塊,寫出一篇新論文、新算法;
生態(tài)層面上,個人開發(fā)者可以利用 AutoGLM,做出自己的項目,在某個小眾場景里真正跑起來。
AutoGLM&AI 手機行業(yè)前景
其實 AutoGLM 的這些智能手機操作能力,和最近熱門的“豆包手機助手”也有不少異曲同工之處。我們先來回顧一下 AutoGLM 是什么,再來聊聊 AI 手機行業(yè)前景。
全球首個手機智能體
2024 年 11 月,有件事在技術(shù)圈“小引熱議”:AI 第一次自己發(fā)出了一個手機紅包。
這不是腳本自動化,也不是調(diào)用某個內(nèi)部 API,而是一個模型就能“看懂”界面內(nèi)容,再一步一步完成點擊流程。過去大家普遍認為這件事極其困難,還有人覺得不可能做到足夠穩(wěn)定。
而這背后的神奇新模型,正是 AutoGLM。
![]()
圖源:智譜官方微信公眾號
簡單來說,它是智譜打造的、用于真實設備 GUI(圖形用戶界面)操作的基礎智能體(foundation agents), 可以在真實或虛擬手機上執(zhí)行長鏈路、多步驟的操作任務,初代于 2024 年 10 月發(fā)布。
AutoGLM 不僅能理解復雜 UI、規(guī)劃復雜任務,還具備錯誤恢復能力,這是 Agent 可以部署的前提。
而它之所以能實現(xiàn) Phone-Use 等強大能力,主要歸功于以下三大核心技術(shù)的突破或創(chuàng)新應用。
首先,AutoGLM 創(chuàng)新地把 Agent 的行為拆成兩層:Planner負責思考“做什么”,并輸出動作描述,比如:“點擊右下角的提交按鈕”、“輸入商家名稱并搜索”等;Grounder負責“在哪里執(zhí)行”,其功能包括識別界面元素、定位坐標、檢測按鈕位置、解析視覺信息等等。
這種結(jié)構(gòu),讓規(guī)劃層更加靈活,解決“LLM 看得懂但點不準”的核心難題,大幅提升跨 APP、跨網(wǎng)頁的泛化能力。
據(jù)智譜論文信息,中間接口(Intermediate Interface)設計,讓 GPT-4o 視覺模式的網(wǎng)頁任務執(zhí)行成功率,從 18%(端到端方式) 提到了36.4%,翻了倍。
![]()
提出 MobileRL、ComputerRL、AgentRL;驗證強化學習規(guī)模擴展定律;在上千臺虛擬設備中并行訓練,能力顯著增強。
第二,AutoGLM 的錯誤恢復能力,主要得益于自進化式的Curriculum RL,模型通過這個 RL 框架可以自進化、自我糾錯、自我變強。
通過獎勵模型(RM)評估每一步是否朝正確方向推進,還可以通過 mutate 指令提高或降低任務難度。模型提前在上千個虛擬環(huán)境經(jīng)過大量試錯和恢復訓練,讓其能在真機上順利跑通幾十步流程。
第三,是大規(guī)模可控環(huán)境,包括 WebArena、AndroidLab,和云手機集群。
其中,WebArena 是真實網(wǎng)頁環(huán)境,AndroidLab 是系統(tǒng)級 Android 環(huán)境,云手機集群則是上千臺虛擬和真實設備并行訓練。
大量的場景覆蓋和經(jīng)驗,讓模型具備了出色的泛化能力,這和谷歌的 AutoRT、WebVoyager、Gemini + Android App 等 Agent 技術(shù)高度類似。
——模型不是靠記規(guī)則,而是靠大量真實任務經(jīng)驗,學會在陌生場景中穩(wěn)健執(zhí)行操作。
值得一提的是,今年初 Manus 橫空出世,讓 AI Agent 迅速爆紅,但 Manus 僅在 3 個月后便迅速撤出了中國市場。不久后,在今年 8 月,智譜發(fā)布 AutoGLM 2.0,也是全球首個手機智能體。
但“一花獨放不是春”
在手機 Agent浪潮奔涌之時,智譜愿化作那塊關鍵拼圖,為未來的版圖添上應有的一角:
“‘一花獨放不是春’。Agent 的爆發(fā),需要所有人一起參與。”
至于“AI 手機”這個概念,本質(zhì)上是把大模型深度塞進手機里,讓其從單一工具升級成能感知、能決策、能跨 App 代辦事務的隨身智能體。
隨著端側(cè) AI 的成熟,AI 手機的盤子正在快速擴張。
據(jù) IDC 預計,2026 年中國新一代 AI 手機出貨量將達到 1.47 億臺,占總體市場的 53%。
而賽迪顧問也發(fā)布了一個報告,判斷 2027 年 AI 手機銷量將躍升至 1.86 億部,占比 56.1%,并強調(diào)“端側(cè)主導、生成式創(chuàng)新與硬件突破”將繼續(xù)推進行業(yè)高速增長。
![]()
這和之前的數(shù)據(jù)相比,已有大幅躍升:2023 年,中國 AI 手機銷售量達到 1100 萬部,占全球 AI 手機銷售量 22%。2024 年,中國市場的新型 AI 智能手機出貨量預計將超過 3500 萬部,預估市場占有率為 12%。
但目前 AI 手機效果如何呢?實際體驗仍處在“宣傳大于實際”的早期階段。
今年年初,21 財經(jīng)曾對六款 AI 手機進行了測評,發(fā)現(xiàn)多數(shù)智能體在訂咖啡、跨應用操作等場景下不是中途卡住,就是需要多輪確認;能穩(wěn)定跑完流程的主要是榮耀 YOYO,但離“全自動化”仍有明顯差距,跨 App 操作成功率依然受限于權(quán)限、界面變化等工程難題。
![]()
這也讓行業(yè)將技術(shù)路線分成兩派:依賴 App 授權(quán)的“意圖框架”,和無需授權(quán)、靠讀屏與模擬操作的“視覺路線(GUI Agent)”。
簡單來說,前者是走“官方通道”,App 得先點頭授權(quán),Agent 才能直接調(diào)用它的功能;后者則是“看著學”:智能體自己讀屏幕、看按鈕、模擬人手點來點去,就像站在你旁邊學你怎么操作手機。
最近出圈的“豆包手機”,就是嘗試把 GUI Agent 做到系統(tǒng)級。
豆包手機其實是字節(jié)跳動在做的一次低調(diào)試水,它由中興代工,首批約 3 萬臺,主要供內(nèi)部測試,沒有對外銷售。不過據(jù)傳,因需求旺盛,目前在閑魚被炒到近 8000 元。
據(jù)晚點報道,該手機背后的核心團隊是字節(jié)負責 AI 硬件的 Ocean,他們由 PICO、OlaDance、錘子等多個硬件團隊整合而來,目標是探索“大模型 + 超級 App + 硬件”的新形態(tài)。
字節(jié)原本想把豆包大模型提供給手機廠商作為系統(tǒng)級能力,但多數(shù)廠商擔心失去大模型時代的主導權(quán)而拒絕合作,最終促使字節(jié)決定親自下場做手機,并已啟動第二代產(chǎn)品研發(fā),預計在 2026 年底推出。
高盛在報告中指出,第三方 AI 想在手機里大規(guī)模落地并不容易:權(quán)限拿不到、數(shù)據(jù)摸不到、應用不一定愿意配合,導致智能體既難看清手機、也難穩(wěn)定操作。
如今各大廠商普遍把“大模型”當作下一代手機的靈魂,更傾向與體量更小、可控性更強的大模型公司合作——比如 OPPO 選擇階躍星辰,而榮耀、三星等廠商則采用了智譜。
也正是在這場競爭中,智譜的角色愈發(fā)清晰:他們不是要取代手機廠,而是以開放、易集成的底層能力,成為 AI 手機生態(tài)里那塊關鍵拼圖,幫助更多廠商真正把“智能體”從概念變成用戶愿意天天依賴的體驗。
AI 手機的下一代入口之爭剛剛開始,而決定最終格局的,將是哪些技術(shù)力量能夠真正讓智能體落地、跑穩(wěn)、跑廣。
傳送門:
github.com/zai-org/Open-AutoGLM
https://arxiv.org/abs/2411.00820
https://www.21jingji.com/article/20250317/herald/6410c6c74c64a254bdc041898ecbd76c.html
聲明:本文為 AI 前線整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。
從 Chatbot 到 Action Agent,企業(yè)級落地最怕什么?是長程推理的顯存天價成本,還是業(yè)務邏輯的“死循環(huán)”風險?如何利用 MCP 協(xié)議解決接口調(diào)用的“信任危機”?本次直播集結(jié)值得買、商湯、明略三位技術(shù)專家拆解可信 Agent 的構(gòu)建之道。
![]()
會議預告
12 月 19~20 日,AICon 2025 年度收官站在北京舉辦。現(xiàn)已開啟 9 折優(yōu)惠。
兩天時間,聊最熱的 Agent、上下文工程、AI 產(chǎn)品創(chuàng)新等等話題,與頭部企業(yè)與創(chuàng)新團隊的專家深度交流落地經(jīng)驗與思考。2025 年最后一場,不容錯過。
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.