網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

攪局者來了！智譜重磅開源AutoGLM，讓“豆包手機”人人可造！官方：AI手機不該掌握在少數(shù)廠商手中

2025-12-09 14:27:43　來源: AI前線

北京舉報

分享至

作者｜木子、高允毅

2023 年 4 月，在很多人剛聽說“大模型”這個詞的時候，智譜團隊開始研究一個聽上去不太現(xiàn)實的目標：

讓 AI 真正學會“使用手機”，也就是像真人一樣，對智能手機等設備具有使用能力。

32 個月后，智譜把階段性重要成果、核心 AI Agent 模型：AutoGLM給完整開源了出來，并放話：“每臺手機，都可以成為 AI 手機。”

AutoGLM 擁有Phone-Use（手機操作）能力，包括點擊、滑動、輸入、截圖理解、流程恢復、噪聲處理……既能穩(wěn)定完成外賣點單，也能完成機票預訂等長達數(shù)十步的復雜操作流程。

目前，AutoGLM 已支持上百個主流 APP，包括以下這些：

另外，AutoGLM 還能同時在上千臺云端虛擬手機里“練功”，通過強化學習等極大地擴展了 Agent 的準確性和泛化能力。而且它被嚴格關在虛擬設備的安全沙箱里，既能自由試錯，又不會碰到用戶真實手機上的隱私數(shù)據(jù)。

智譜今天開源的是一整套可以“拿來就用”的能力，具體包括：

訓練好的核心模型；
Phone Use 能力框架與工具鏈；
可直接跑通的 Demo，覆蓋 50+ 高頻中文 App；
針對 Android 的適配層與示例工程；
文檔、快速上手指南

模型會以MIT 開源許可證的形式開放，而所有代碼會以Apache-2.0 開源許可證的形式，托管在 GitHub 倉庫中：github.com/zai-org/Open-AutoGLM。

為什么選擇開源？

“從產(chǎn)品的角度，AutoGLM 已經(jīng)可以支撐起很多真實場景；從工程的角度，AutoGLM 的積累足夠?qū)懗梢淮筠夹g(shù)報告。”

為什么選擇在這個時間點把辛辛苦苦做的東西開源呢？看完官方自白，不得不說，智譜的格局還挺大。

首先，智譜認為“AI 手機”是大勢所趨，但這不是一家公司就能完成的任務，更不應該掌握在極少數(shù)廠商手里。

18 年前，蘋果以智能手機奠定生態(tài)時代的范式；Siri 問世后，語音助手成了標配，但功能多停留在查天氣、設鬧鐘，距離真正的智能仍相去甚遠。

如今 AI 登場，變革已成共識。大模型不再只是給手機添點“智能”、做做答問，而是深入系統(tǒng)流程，像全能管家般跨 App 完成訂票、點餐、取消續(xù)費等復雜操作，讓手機真正邁向下一代計算入口。

也正因為這將重塑手機的能力與地位，一旦被少數(shù)廠商壟斷，那么開發(fā)者的創(chuàng)新空間，要看平臺愿不愿意開放接口；而用戶日常生活中最重要的那臺設備，也會越來越像“別人家的入口”。

智譜希望：“AutoGLM 的開源，能把這一層能力變成整個行業(yè)可以共同擁有、共同打磨的公共底座。”

他們把 AutoGLM 比喻成積木，表示可以拿來即用，成為系統(tǒng)的一部分，也可以拆開、重寫、改造，變成新產(chǎn)品的元素。

其次，隱私是 AI 手機一個避不開的問題。

可以想象，如果 AI 可以操控手機，像管家一樣讀取、操作、解決問題，雖然帶來了便利，但也成為了知曉用戶一切根底的隱形炸彈。

像個人微信、支付、聊天記錄、照片相冊、企業(yè)內(nèi)部系統(tǒng)等等信息，必須掌握在用戶自己手里。

智譜的解法是，通過開源和私有化部署，企業(yè)和開發(fā)者可以在自己的合規(guī)環(huán)境中完整掌控數(shù)據(jù)、日志和權(quán)限。也就是說，這個 AI 能力免費發(fā)放，數(shù)據(jù)與隱私永遠留在使用方這一側(cè)。

第三，智譜希望“自己吃過的苦，別人別再吃了”。

“把我們走過的路，變成大家在 Agent 爆發(fā)時代的起跑線。 AutoGLM 是一條很陡的路：我們啃過的技術(shù)難題、踩過的坑、重寫過的框架，在很多場景里都可以復用，也值得被復用。”

他們想在未來看到這樣情形：

商業(yè)層面上，有團隊因為 AutoGLM，做出真正意義上的 AI 原生手機；
技術(shù)層面上，有研究者因為其中某個模塊，寫出一篇新論文、新算法；
生態(tài)層面上，個人開發(fā)者可以利用 AutoGLM，做出自己的項目，在某個小眾場景里真正跑起來。

AutoGLM&AI 手機行業(yè)前景

其實 AutoGLM 的這些智能手機操作能力，和最近熱門的“豆包手機助手”也有不少異曲同工之處。我們先來回顧一下 AutoGLM 是什么，再來聊聊 AI 手機行業(yè)前景。

全球首個手機智能體

2024 年 11 月，有件事在技術(shù)圈“小引熱議”：AI 第一次自己發(fā)出了一個手機紅包。

這不是腳本自動化，也不是調(diào)用某個內(nèi)部 API，而是一個模型就能“看懂”界面內(nèi)容，再一步一步完成點擊流程。過去大家普遍認為這件事極其困難，還有人覺得不可能做到足夠穩(wěn)定。

而這背后的神奇新模型，正是 AutoGLM。

圖源：智譜官方微信公眾號

簡單來說，它是智譜打造的、用于真實設備 GUI（圖形用戶界面）操作的基礎智能體（foundation agents）, 可以在真實或虛擬手機上執(zhí)行長鏈路、多步驟的操作任務，初代于 2024 年 10 月發(fā)布。

AutoGLM 不僅能理解復雜 UI、規(guī)劃復雜任務，還具備錯誤恢復能力，這是 Agent 可以部署的前提。

而它之所以能實現(xiàn) Phone-Use 等強大能力，主要歸功于以下三大核心技術(shù)的突破或創(chuàng)新應用。

首先，AutoGLM 創(chuàng)新地把 Agent 的行為拆成兩層：Planner負責思考“做什么”，并輸出動作描述，比如：“點擊右下角的提交按鈕”、“輸入商家名稱并搜索”等；Grounder負責“在哪里執(zhí)行”，其功能包括識別界面元素、定位坐標、檢測按鈕位置、解析視覺信息等等。

這種結(jié)構(gòu)，讓規(guī)劃層更加靈活，解決“LLM 看得懂但點不準”的核心難題，大幅提升跨 APP、跨網(wǎng)頁的泛化能力。

據(jù)智譜論文信息，中間接口（Intermediate Interface）設計，讓 GPT-4o 視覺模式的網(wǎng)頁任務執(zhí)行成功率，從 18%（端到端方式）提到了36.4%，翻了倍。

提出 MobileRL、ComputerRL、AgentRL；驗證強化學習規(guī)模擴展定律；在上千臺虛擬設備中并行訓練，能力顯著增強。

第二，AutoGLM 的錯誤恢復能力，主要得益于自進化式的Curriculum RL，模型通過這個 RL 框架可以自進化、自我糾錯、自我變強。

通過獎勵模型（RM）評估每一步是否朝正確方向推進，還可以通過 mutate 指令提高或降低任務難度。模型提前在上千個虛擬環(huán)境經(jīng)過大量試錯和恢復訓練，讓其能在真機上順利跑通幾十步流程。

第三，是大規(guī)模可控環(huán)境，包括 WebArena、AndroidLab，和云手機集群。

其中，WebArena 是真實網(wǎng)頁環(huán)境，AndroidLab 是系統(tǒng)級 Android 環(huán)境，云手機集群則是上千臺虛擬和真實設備并行訓練。

大量的場景覆蓋和經(jīng)驗，讓模型具備了出色的泛化能力，這和谷歌的 AutoRT、WebVoyager、Gemini + Android App 等 Agent 技術(shù)高度類似。

——模型不是靠記規(guī)則，而是靠大量真實任務經(jīng)驗，學會在陌生場景中穩(wěn)健執(zhí)行操作。

值得一提的是，今年初 Manus 橫空出世，讓 AI Agent 迅速爆紅，但 Manus 僅在 3 個月后便迅速撤出了中國市場。不久后，在今年 8 月，智譜發(fā)布 AutoGLM 2.0，也是全球首個手機智能體。

但“一花獨放不是春”

在手機 Agent浪潮奔涌之時，智譜愿化作那塊關鍵拼圖，為未來的版圖添上應有的一角：

“‘一花獨放不是春’。Agent 的爆發(fā)，需要所有人一起參與。”

至于“AI 手機”這個概念，本質(zhì)上是把大模型深度塞進手機里，讓其從單一工具升級成能感知、能決策、能跨 App 代辦事務的隨身智能體。

隨著端側(cè) AI 的成熟，AI 手機的盤子正在快速擴張。

據(jù) IDC 預計，2026 年中國新一代 AI 手機出貨量將達到 1.47 億臺，占總體市場的 53%。

而賽迪顧問也發(fā)布了一個報告，判斷 2027 年 AI 手機銷量將躍升至 1.86 億部，占比 56.1%，并強調(diào)“端側(cè)主導、生成式創(chuàng)新與硬件突破”將繼續(xù)推進行業(yè)高速增長。

這和之前的數(shù)據(jù)相比，已有大幅躍升：2023 年，中國 AI 手機銷售量達到 1100 萬部，占全球 AI 手機銷售量 22%。2024 年，中國市場的新型 AI 智能手機出貨量預計將超過 3500 萬部，預估市場占有率為 12%。

但目前 AI 手機效果如何呢？實際體驗仍處在“宣傳大于實際”的早期階段。

今年年初，21 財經(jīng)曾對六款 AI 手機進行了測評，發(fā)現(xiàn)多數(shù)智能體在訂咖啡、跨應用操作等場景下不是中途卡住，就是需要多輪確認；能穩(wěn)定跑完流程的主要是榮耀 YOYO，但離“全自動化”仍有明顯差距，跨 App 操作成功率依然受限于權(quán)限、界面變化等工程難題。

這也讓行業(yè)將技術(shù)路線分成兩派：依賴 App 授權(quán)的“意圖框架”，和無需授權(quán)、靠讀屏與模擬操作的“視覺路線（GUI Agent）”。

簡單來說，前者是走“官方通道”，App 得先點頭授權(quán)，Agent 才能直接調(diào)用它的功能；后者則是“看著學”：智能體自己讀屏幕、看按鈕、模擬人手點來點去，就像站在你旁邊學你怎么操作手機。

最近出圈的“豆包手機”，就是嘗試把 GUI Agent 做到系統(tǒng)級。

豆包手機其實是字節(jié)跳動在做的一次低調(diào)試水，它由中興代工，首批約 3 萬臺，主要供內(nèi)部測試，沒有對外銷售。不過據(jù)傳，因需求旺盛，目前在閑魚被炒到近 8000 元。

據(jù)晚點報道，該手機背后的核心團隊是字節(jié)負責 AI 硬件的 Ocean，他們由 PICO、OlaDance、錘子等多個硬件團隊整合而來，目標是探索“大模型 + 超級 App + 硬件”的新形態(tài)。

字節(jié)原本想把豆包大模型提供給手機廠商作為系統(tǒng)級能力，但多數(shù)廠商擔心失去大模型時代的主導權(quán)而拒絕合作，最終促使字節(jié)決定親自下場做手機，并已啟動第二代產(chǎn)品研發(fā)，預計在 2026 年底推出。

高盛在報告中指出，第三方 AI 想在手機里大規(guī)模落地并不容易：權(quán)限拿不到、數(shù)據(jù)摸不到、應用不一定愿意配合，導致智能體既難看清手機、也難穩(wěn)定操作。

如今各大廠商普遍把“大模型”當作下一代手機的靈魂，更傾向與體量更小、可控性更強的大模型公司合作——比如 OPPO 選擇階躍星辰，而榮耀、三星等廠商則采用了智譜。

也正是在這場競爭中，智譜的角色愈發(fā)清晰：他們不是要取代手機廠，而是以開放、易集成的底層能力，成為 AI 手機生態(tài)里那塊關鍵拼圖，幫助更多廠商真正把“智能體”從概念變成用戶愿意天天依賴的體驗。

AI 手機的下一代入口之爭剛剛開始，而決定最終格局的，將是哪些技術(shù)力量能夠真正讓智能體落地、跑穩(wěn)、跑廣。

傳送門：

github.com/zai-org/Open-AutoGLM

https://arxiv.org/abs/2411.00820

https://www.21jingji.com/article/20250317/herald/6410c6c74c64a254bdc041898ecbd76c.html

聲明：本文為 AI 前線整理，不代表平臺觀點，未經(jīng)許可禁止轉(zhuǎn)載。

從 Chatbot 到 Action Agent，企業(yè)級落地最怕什么？是長程推理的顯存天價成本，還是業(yè)務邏輯的“死循環(huán)”風險？如何利用 MCP 協(xié)議解決接口調(diào)用的“信任危機”？本次直播集結(jié)值得買、商湯、明略三位技術(shù)專家拆解可信 Agent 的構(gòu)建之道。

會議預告

12 月 19～20 日，AICon 2025 年度收官站在北京舉辦。現(xiàn)已開啟 9 折優(yōu)惠。

兩天時間，聊最熱的 Agent、上下文工程、AI 產(chǎn)品創(chuàng)新等等話題，與頭部企業(yè)與創(chuàng)新團隊的專家深度交流落地經(jīng)驗與思考。2025 年最后一場，不容錯過。

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.