![]()
機器之心報道
編輯:冷貓、Panda
「安靜!吵到我用 TNT 了!」
![]()
長期關注科技圈的朋友們都知道,羅永浩的錘子科技落幕已經七年。七年間,仍有無數錘科粉絲保留著舊手機備用,懷念手機圈當年的「銳利異類」,以至于錘子手機仍然有百萬日活用戶。
而錘子科技,羅永浩最大的愿景和遺憾,莫過于號稱「重新定義下個十年的個人電腦」,以及鬧出了科技圈永生梗「理解萬歲」的 TNT。
給不熟悉的讀者朋友們簡單介紹下:TNT 全稱 Touch&Talk,通過觸控 + 語音的方式操作設備。
在那個 AI 尚顯稚嫩的年代,這被視為一種激進的賭博;但在大模型爆發的今天,我們驚訝地發現:最高效的手機操作方式,恰恰就是 TNT 構想的那樣:按住屏幕把需求說出來,設備自動完成一切。
近些天,豆包手機(豆包手機助手技術預覽版)爆火,讓能夠操作手機的 AI Agent 走入了大眾視野。Agent 借助大模型和自動操作系統的設計,讓用戶憑借自然語言和語音輸入,就能自然實現通用的、跨任務的復雜操作。
也因此,人們在震驚于現今大模型 GUI Agent 能力強大之余,也不禁擔心個人數據上云的隱私權限問題,幾大國民級 App 也都限制了豆包手機助手的訪問,再加上搭載豆包的手機一機難求……
除了被大廠生態裹挾,我們有沒有另一種選擇?有沒有一個既能一句話搞定繁雜任務,又能將隱私握在自己手里,甚至人人都能 DIY 的 GUI Agent?
有的兄弟,有的,而且是來自深耕智能體的智譜的明星項目:AutoGLM
就在前天,AutoGLM 正式全面開源
豆包手機之所以遭到所有大廠圍剿,因為 AI 手機很可能是下一個時代的流量入口。智譜這波開源直接把能力交給了所有人手上,一己之力把 AI 原生手機的門檻給打平了。
為開源精神點贊!
具體來說,Open-AutoGLM 由一個手機端智能助手框架Phone Agent和一個 9B 大小的模型AutoGLM-Phone-9B共同組成。
![]()
開源地址:https://github.com/zai-org/Open-AutoGLM
從第一個 AI 發出的紅包說起
這次開源對行業的影響力,核心來自這次智譜開源的不是一個普通的 GUI agent 模型,而可能是行業最好的模型。
智譜是第一個開始可操作智能體研究的廠商。
時間回到 32 個月前的 2023 年 4 月,智譜就已經開始從零探索 AutoGLM,目標是打造一個不僅能「說」,還能「做」的智能體模型。
2024 年 10 月,AutoGLM 面世爆火,被業界公認為是全球第一個可以真正操控手機的 Agent,迄今也是全球完成度最高的 GUI Phone Use 模型。不是模擬,不是腳本,而是像人一樣去「看屏幕」,去分析 UI 布局,然后模擬手指進行點擊與滑動。AutoGLM 這個 Phone Use 能力的誕生,是「AI 會用工具」的關鍵里程碑。
一個月后,它做了一件前所未有的事情:AutoGLM 完成了人類歷史上第一個由 AI 全自動發出的紅包。
![]()
這個紅包意味著大模型「從 Chat 到 Act」的范式轉變,語言不再停留在語言本身,而能驅動行動、執行任務。
但我們很快意識到:會動手的 AI,就像剛拿到第一部智能手機的小孩 —— 強大,但也危險。如果它在不該點的地方亂點怎么辦?如果某個用戶的真實手機被誤觸隱私應用怎么辦?
于是到了 2025 年 8 月,智譜做了一個關鍵決定:先把 AutoGLM 放進云端的「虛擬手機」里
AutoGLM 2.0 云機版,把 AI 的行動舞臺與用戶真實手機完全隔離。它看到的屏幕、能執行的點擊,都發生在一臺安全的虛擬設備上。涉及隱私的 App,比如微信,則選擇不開放 —— 不是做不到,而是智譜希望它「先學會規則,再學本事」。
Phone Agent 的實現,依賴于 AutoGLM 的視覺-語言模型。通過理解手機屏幕內容、解析 UI 狀態,結合智能規劃能力,它能自主完成整套操作流程。
這背后的實現說簡單也簡單,說復雜也復雜。它由三大核心技術組成:
1.ADB(Android Debug Bridge):手機的「控制器」
AutoGLM 接入安卓系統的 ADB 開發者調試,負責把控制信號送到設備上,實現基本的點按滑動等操作。
2.視覺-語言模型(VLM):AI 的「眼睛 + 大腦」
它能理解手機屏幕上的文本、按鈕、圖標,識別,操作和實時反饋。
3.智能規劃:任務拆解的「策劃師」
它能將自然語言任務拆解為可執行步驟,你說一句「發紅包給小李」,AI 會自動補全背后的十幾步操作鏈:打開 App、找到聯系人、選擇金額、確認支付……
AutoGLM 把這三項能力打包成一個完整執行框架,「AI 會用手機」的概念已經在諸多測試中保證了穩定和實用。
一手實測
Open-AutoGLM 究竟有多強?
理論說得再多,不如實戰。下面我們就來看看開源版的 AutoGLM 表現究竟如何。
首先,來一個簡單任務:發微信。發送以下指令:
給 wupan 發個微信,就說 Panda 的生日快到了,準備個蛋糕,多點水果。
![]()
可以看到,系統啟動后,Open-AutoGLM 首先進行了一波「自檢」,確認 API 和系統權限無誤。在這里,我們可以看到智譜給 Phone Agent 的描述:「AI-powered phone automation」,即「AI 賦能的手機自動化」。
接下來,AutoGLM 會回到任務本身。思考為了完成這個任務,第一步應該執行什么。在終端界面,我們能清晰地看到它的思維鏈(CoT):
- 觀察:當前在桌面。
- 思考:任務是發微信,第一步需要找到并打開微信。
- 行動:點擊微信圖標。
- 觀察:進入微信列表頁。
- 思考:需要找到 wupan,點擊搜索框……
如此迭代進行,直到完成任務。整個過程行云流水,最后它還會像模像樣地匯報:「任務已完成」。
而在以上任務執行的同時,我們的手機端則經歷了以下過程。很顯然,AutoGLM 非常出色地完成了這個初始任務。
![]()
下面,為了更好地展示,我們將使用 scrcpy 將手機投屏到 PC 上,將前后端情況一并錄制。此外,為了方便,我們將上面略顯繁瑣的命令定義為一個 Function,并把它放進 PowerShell 配置文件 (Profile) 里。下面我們只需簡單地輸出「run "提示詞"」即可向 AutoGLM 發送指令。(當然,你也可以 Vibe Code 一個更好看或直觀的交互 UI。)
接下來試試 AutoGLM 與小紅書的交互。
run "打開小紅書,看看有什么有趣的瘋狂動物城周邊"
![]()
同樣,執行非常順暢,并且在執行過程中,我們還看到 AutoGLM 能夠正確地識別和處理彈窗提醒。更讓人驚喜的是它的總結能力。它沒有機械地羅列標題,而是像個真正的瀏覽者一樣,理解了屏幕上的內容。在最終的反饋中,它匯總了前四個結果:發圈、毛絨公仔、圓珠筆、泡泡瑪特盲盒。這說明它不僅「看」到了像素,還「懂」了商品。
AutoGLM 還可以根據用戶指令執行連續多步操作,比如你可以讓它「先打開維基百科找到五月天的第一張專輯是什么,然后打開 QQ 音樂播放它」:
![]()
我們還能讓 AutoGLM 幫助完成一些重復性的繁瑣任務,比如應用寶軟件更新。當你有一大堆軟件需要更新時,加上不時的彈窗,這會變成一個幾乎讓人有些火大的過程。而如果你有 AutoGLM 這樣的 AI 助手,也就是一句話的事兒。
run "打開應用寶,把我的軟件更新一下"
![]()
哇哦!真省心。簡直是「懶人福音」。面對一大堆待更新的 App 和時不時的彈窗,AutoGLM 耐心地一個個點擊。
有趣的是,在更新過程中,AutoGLM 還遭遇了一次「誤觸」。根據對話記錄可以看出,當時彈出了請求更新嗶哩嗶哩的許可申請,而此時百度地圖又剛剛更新完成,于是 AutoGLM 本來打算點擊的「更新」變成了「打開」,它也因此意外打開了百度地圖。
如果是傳統的自動化腳本,這時候已經卡死報錯了。但 AutoGLM 展現出了驚人的臨場反應:
- 感知錯誤:它發現屏幕畫面變成了地圖,而不是應用寶。
- 自我修正:它沒有由于結果超出預期而自亂陣腳,而是分析當前狀況,執行了「返回/退出」操作。
- 回到正軌:重新回到應用寶界面,繼續未完成的更新任務。
這種穩健性才是 Agent 走向實用的關鍵。
實測過程中,我們發現 AutoGLM 的執行邏輯是通過分析屏幕截圖來確定下一步。也因此,AutoGLM 具有非常高的通用性和普適性,并不局限于智譜官方推薦的應用。事實上,只要它能理解手機屏幕截圖,便能夠執行一步步地完成任務。
舉個例子,我們甚至能讓 AutoGLM 調用其它 AI 助手來幫助完成更加復雜的任務。
run "打開 Gemini,讓它搜索并整理一下智譜的發展歷史,最后出具一份深度報告"
![]()
結果堪稱完美!Open-AutoGLM 成功打開了 Gemini ,將我們的自然語言指令輸入進去,等待 Gemini 生成長文報告,最后將報告內容提取回來。
這一刻,手機里的 App 不再是孤島。AutoGLM 像是一層「超級膠水」,將本地應用、云端大模型無縫粘合在了一起。這或許就是未來「超級 App」的雛形 ——App 本身不再重要,服務才是核心。
全面開源
人手一個 AI 手機
智譜選擇了和封閉生態完全不同的方向。
Open-AutoGLM 的全面開源,意味著開發者、研究者與個人愛好者,都可以沿用 AutoGLM 的執行框架,在自己的產品中復現或延展這個「能動手的 AI」。
此次開源顯得誠意十足:
- 核心模型與推理代碼:毫無保留。
- 工具鏈:完整的 Phone-Use 框架。
- 開箱即用:支持 50 多款常用中文 App 的 Demo。
- 協議友好:模型采用 MIT 協議,代碼采用 Apache-2.0 協議。
- 完善的文檔和快速上手指南。
無需擔憂的隱私問題
開源徹底改變了隱私的博弈關系。當模型、框架、適配層全部公開后,我們能做的最重要一件事,就是把 AI 完整地搬回到用戶的本地設備上運行。
數據無需上云,所有操作記錄、App 使用習慣甚至輸入內容都能在本機完成處理 —— 沒有上傳,自然也就沒有泄露風險。同時,代碼完全透明,任何人都可以驗證它是否聯網、是否收集數據、是否寫入日志,比任何口頭承諾都更可靠。
在 AI 手機的概念被炒得火熱的今天,我們需要的不是又一個竊取數據的云端黑盒,而是一個透明、可控、私有的智能管家。
行業平等的模型底座
在不遠的未來,AI 助手最終會普及到每個用戶。而沒有人希望,這個能夠幫助人們操作手機的助手,一個能夠掌控各大應用的入口,是某一個平臺獨占的資源。豆包手機助手目前被各大 App 限制的現狀,已經給出了信號。
這是一次新的人機交互革命,AutoGLM 開源,把 AI 助手的能力徹底開放,變成全行業的公共底座。
Open-AutoGLM 的出現,或許就是 AI Agent 領域的「安卓時刻」:它為那個羅永浩曾夢想過的、動動嘴就能搞定一切的 TNT 時代,鋪下了第一塊堅實的開源基石。
正如智譜所言:「把我們已經走過的路,變成接下來 Agent 爆發時代大家的起跑線。
未來已來,而且這次,它聽你的。
文中視頻鏈接:https://mp.weixin.qq.com/s/ub9_3OETxNjA7NbSrXdW6Q
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.