網易首頁 > 網易號 > 正文申請入駐

一手實測 | 智譜AutoGLM開源： AI手機的「安卓時刻」正式到來

2025-12-10 14:13:41　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：冷貓、Panda

「安靜！吵到我用 TNT 了！」

長期關注科技圈的朋友們都知道，羅永浩的錘子科技落幕已經七年。七年間，仍有無數錘科粉絲保留著舊手機備用，懷念手機圈當年的「銳利異類」，以至于錘子手機仍然有百萬日活用戶。

而錘子科技，羅永浩最大的愿景和遺憾，莫過于號稱「重新定義下個十年的個人電腦」，以及鬧出了科技圈永生梗「理解萬歲」的 TNT。

給不熟悉的讀者朋友們簡單介紹下：TNT 全稱 Touch&Talk，通過觸控 + 語音的方式操作設備。

在那個 AI 尚顯稚嫩的年代，這被視為一種激進的賭博；但在大模型爆發的今天，我們驚訝地發現：最高效的手機操作方式，恰恰就是 TNT 構想的那樣：按住屏幕把需求說出來，設備自動完成一切。

近些天，豆包手機（豆包手機助手技術預覽版）爆火，讓能夠操作手機的 AI Agent 走入了大眾視野。Agent 借助大模型和自動操作系統的設計，讓用戶憑借自然語言和語音輸入，就能自然實現通用的、跨任務的復雜操作。

也因此，人們在震驚于現今大模型 GUI Agent 能力強大之余，也不禁擔心個人數據上云的隱私權限問題，幾大國民級 App 也都限制了豆包手機助手的訪問，再加上搭載豆包的手機一機難求……

除了被大廠生態裹挾，我們有沒有另一種選擇？有沒有一個既能一句話搞定繁雜任務，又能將隱私握在自己手里，甚至人人都能 DIY 的 GUI Agent？

有的兄弟，有的，而且是來自深耕智能體的智譜的明星項目：AutoGLM

就在前天，AutoGLM 正式全面開源

豆包手機之所以遭到所有大廠圍剿，因為 AI 手機很可能是下一個時代的流量入口。智譜這波開源直接把能力交給了所有人手上，一己之力把 AI 原生手機的門檻給打平了。

為開源精神點贊！

具體來說，Open-AutoGLM 由一個手機端智能助手框架Phone Agent和一個 9B 大小的模型AutoGLM-Phone-9B共同組成。

開源地址：https://github.com/zai-org/Open-AutoGLM

從第一個 AI 發出的紅包說起

這次開源對行業的影響力，核心來自這次智譜開源的不是一個普通的 GUI agent 模型，而可能是行業最好的模型。

智譜是第一個開始可操作智能體研究的廠商。

時間回到 32 個月前的 2023 年 4 月，智譜就已經開始從零探索 AutoGLM，目標是打造一個不僅能「說」，還能「做」的智能體模型。

2024 年 10 月，AutoGLM 面世爆火，被業界公認為是全球第一個可以真正操控手機的 Agent，迄今也是全球完成度最高的 GUI Phone Use 模型。不是模擬，不是腳本，而是像人一樣去「看屏幕」，去分析 UI 布局，然后模擬手指進行點擊與滑動。AutoGLM 這個 Phone Use 能力的誕生，是「AI 會用工具」的關鍵里程碑。

一個月后，它做了一件前所未有的事情：AutoGLM 完成了人類歷史上第一個由 AI 全自動發出的紅包。

這個紅包意味著大模型「從 Chat 到 Act」的范式轉變，語言不再停留在語言本身，而能驅動行動、執行任務。

但我們很快意識到：會動手的 AI，就像剛拿到第一部智能手機的小孩 —— 強大，但也危險。如果它在不該點的地方亂點怎么辦？如果某個用戶的真實手機被誤觸隱私應用怎么辦？

于是到了 2025 年 8 月，智譜做了一個關鍵決定：先把 AutoGLM 放進云端的「虛擬手機」里

AutoGLM 2.0 云機版，把 AI 的行動舞臺與用戶真實手機完全隔離。它看到的屏幕、能執行的點擊，都發生在一臺安全的虛擬設備上。涉及隱私的 App，比如微信，則選擇不開放 —— 不是做不到，而是智譜希望它「先學會規則，再學本事」。

Phone Agent 的實現，依賴于 AutoGLM 的視覺-語言模型。通過理解手機屏幕內容、解析 UI 狀態，結合智能規劃能力，它能自主完成整套操作流程。

這背后的實現說簡單也簡單，說復雜也復雜。它由三大核心技術組成：

1.ADB（Android Debug Bridge）：手機的「控制器」

AutoGLM 接入安卓系統的 ADB 開發者調試，負責把控制信號送到設備上，實現基本的點按滑動等操作。

2.視覺-語言模型（VLM）：AI 的「眼睛 + 大腦」

它能理解手機屏幕上的文本、按鈕、圖標，識別，操作和實時反饋。

3.智能規劃：任務拆解的「策劃師」

它能將自然語言任務拆解為可執行步驟，你說一句「發紅包給小李」，AI 會自動補全背后的十幾步操作鏈：打開 App、找到聯系人、選擇金額、確認支付……

AutoGLM 把這三項能力打包成一個完整執行框架，「AI 會用手機」的概念已經在諸多測試中保證了穩定和實用。

一手實測

Open-AutoGLM 究竟有多強？

理論說得再多，不如實戰。下面我們就來看看開源版的 AutoGLM 表現究竟如何。

首先，來一個簡單任務：發微信。發送以下指令：

給 wupan 發個微信，就說 Panda 的生日快到了，準備個蛋糕，多點水果。

可以看到，系統啟動后，Open-AutoGLM 首先進行了一波「自檢」，確認 API 和系統權限無誤。在這里，我們可以看到智譜給 Phone Agent 的描述：「AI-powered phone automation」，即「AI 賦能的手機自動化」。

接下來，AutoGLM 會回到任務本身。思考為了完成這個任務，第一步應該執行什么。在終端界面，我們能清晰地看到它的思維鏈（CoT）：

觀察：當前在桌面。
思考：任務是發微信，第一步需要找到并打開微信。
行動：點擊微信圖標。
觀察：進入微信列表頁。
思考：需要找到 wupan，點擊搜索框……

如此迭代進行，直到完成任務。整個過程行云流水，最后它還會像模像樣地匯報：「任務已完成」。

而在以上任務執行的同時，我們的手機端則經歷了以下過程。很顯然，AutoGLM 非常出色地完成了這個初始任務。

下面，為了更好地展示，我們將使用 scrcpy 將手機投屏到 PC 上，將前后端情況一并錄制。此外，為了方便，我們將上面略顯繁瑣的命令定義為一個 Function，并把它放進 PowerShell 配置文件 (Profile) 里。下面我們只需簡單地輸出「run "提示詞"」即可向 AutoGLM 發送指令。（當然，你也可以 Vibe Code 一個更好看或直觀的交互 UI。）

接下來試試 AutoGLM 與小紅書的交互。

run "打開小紅書，看看有什么有趣的瘋狂動物城周邊"

同樣，執行非常順暢，并且在執行過程中，我們還看到 AutoGLM 能夠正確地識別和處理彈窗提醒。更讓人驚喜的是它的總結能力。它沒有機械地羅列標題，而是像個真正的瀏覽者一樣，理解了屏幕上的內容。在最終的反饋中，它匯總了前四個結果：發圈、毛絨公仔、圓珠筆、泡泡瑪特盲盒。這說明它不僅「看」到了像素，還「懂」了商品。

AutoGLM 還可以根據用戶指令執行連續多步操作，比如你可以讓它「先打開維基百科找到五月天的第一張專輯是什么，然后打開 QQ 音樂播放它」：

我們還能讓 AutoGLM 幫助完成一些重復性的繁瑣任務，比如應用寶軟件更新。當你有一大堆軟件需要更新時，加上不時的彈窗，這會變成一個幾乎讓人有些火大的過程。而如果你有 AutoGLM 這樣的 AI 助手，也就是一句話的事兒。

run "打開應用寶，把我的軟件更新一下"

哇哦！真省心。簡直是「懶人福音」。面對一大堆待更新的 App 和時不時的彈窗，AutoGLM 耐心地一個個點擊。

有趣的是，在更新過程中，AutoGLM 還遭遇了一次「誤觸」。根據對話記錄可以看出，當時彈出了請求更新嗶哩嗶哩的許可申請，而此時百度地圖又剛剛更新完成，于是 AutoGLM 本來打算點擊的「更新」變成了「打開」，它也因此意外打開了百度地圖。

如果是傳統的自動化腳本，這時候已經卡死報錯了。但 AutoGLM 展現出了驚人的臨場反應：

感知錯誤：它發現屏幕畫面變成了地圖，而不是應用寶。
自我修正：它沒有由于結果超出預期而自亂陣腳，而是分析當前狀況，執行了「返回/退出」操作。
回到正軌：重新回到應用寶界面，繼續未完成的更新任務。

這種穩健性才是 Agent 走向實用的關鍵。

實測過程中，我們發現 AutoGLM 的執行邏輯是通過分析屏幕截圖來確定下一步。也因此，AutoGLM 具有非常高的通用性和普適性，并不局限于智譜官方推薦的應用。事實上，只要它能理解手機屏幕截圖，便能夠執行一步步地完成任務。

舉個例子，我們甚至能讓 AutoGLM 調用其它 AI 助手來幫助完成更加復雜的任務。

run "打開 Gemini，讓它搜索并整理一下智譜的發展歷史，最后出具一份深度報告"

結果堪稱完美！Open-AutoGLM 成功打開了 Gemini ，將我們的自然語言指令輸入進去，等待 Gemini 生成長文報告，最后將報告內容提取回來。

這一刻，手機里的 App 不再是孤島。AutoGLM 像是一層「超級膠水」，將本地應用、云端大模型無縫粘合在了一起。這或許就是未來「超級 App」的雛形 ——App 本身不再重要，服務才是核心。

全面開源

人手一個 AI 手機

智譜選擇了和封閉生態完全不同的方向。

Open-AutoGLM 的全面開源，意味著開發者、研究者與個人愛好者，都可以沿用 AutoGLM 的執行框架，在自己的產品中復現或延展這個「能動手的 AI」。

此次開源顯得誠意十足：

核心模型與推理代碼：毫無保留。
工具鏈：完整的 Phone-Use 框架。
開箱即用：支持 50 多款常用中文 App 的 Demo。
協議友好：模型采用 MIT 協議，代碼采用 Apache-2.0 協議。
完善的文檔和快速上手指南。

無需擔憂的隱私問題

開源徹底改變了隱私的博弈關系。當模型、框架、適配層全部公開后，我們能做的最重要一件事，就是把 AI 完整地搬回到用戶的本地設備上運行。

數據無需上云，所有操作記錄、App 使用習慣甚至輸入內容都能在本機完成處理 —— 沒有上傳，自然也就沒有泄露風險。同時，代碼完全透明，任何人都可以驗證它是否聯網、是否收集數據、是否寫入日志，比任何口頭承諾都更可靠。

在 AI 手機的概念被炒得火熱的今天，我們需要的不是又一個竊取數據的云端黑盒，而是一個透明、可控、私有的智能管家。

行業平等的模型底座

在不遠的未來，AI 助手最終會普及到每個用戶。而沒有人希望，這個能夠幫助人們操作手機的助手，一個能夠掌控各大應用的入口，是某一個平臺獨占的資源。豆包手機助手目前被各大 App 限制的現狀，已經給出了信號。

這是一次新的人機交互革命，AutoGLM 開源，把 AI 助手的能力徹底開放，變成全行業的公共底座。

Open-AutoGLM 的出現，或許就是 AI Agent 領域的「安卓時刻」：它為那個羅永浩曾夢想過的、動動嘴就能搞定一切的 TNT 時代，鋪下了第一塊堅實的開源基石。

正如智譜所言：「把我們已經走過的路，變成接下來 Agent 爆發時代大家的起跑線。

未來已來，而且這次，它聽你的。

文中視頻鏈接：https://mp.weixin.qq.com/s/ub9_3OETxNjA7NbSrXdW6Q

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.