智譜宣布開源其核心 AI Agent 模型 AutoGLM。該模型被業界視為全球首個具備“Phone Use”(手機操作)能力的 AI Agent,能夠穩定完成外賣點單、機票預訂等長達數十步的復雜操作流程。
![]()
以下內容轉自:
我們想做的
到底是一件什么事
過去的很長時間,我們一直在回答同一個問題:
如果 AI 真的是“助手”,它能不能像人一樣,自己把手機拿起來,把一件事從頭做到尾?
在我們的想象里,AI 不該只停留在聊天框里,而是可以走進用戶每天真正要點的那些 App 里:
- 幫你在外賣 App 里完成從選擇到下單;
- 幫你在云手機里,批量處理通知、點贊評論;
- 幫你在銷售、客服、出勤等場景里,自動做完一堆“你自己也不想點的重復動作”。
AutoGLM 想做的,就是這件事:讓 AI 真正學會“使用手機”。
32個月
我們具體做到了什么?
用一句簡單的話來說:
我們希望 AutoGLM,不僅能“說”,還能“做”。
為了這一句話,我們從 2023 年 4 月——一個大多數人還不知道大模型是什么的時候,完全從零去探索每一個細節,到今天,已經 32 個月了。
1.“亂點” -> “可控”
在最開始的版本里,基于大模型所構建的系統只知道“點”、“滑”等操作,偶爾能完成一個很短的流程,更多時候會迷失在不知所謂的操作中,甚至陷入死循環。
為了解決這類問題,我們花了近一年的時間,去梳理每一個可能的問題,嘗試把這些“亂點的手”變成一只“可控的手”:
- 建了一整套 Phone Use 能力框架;
- 把點擊、滑動、輸入、截圖、界面理解這些最基礎的動作抽象出來;
- 讓模型學會把一句自然語言拆解為一系列穩定、可回放的操作步驟;
- 處理掉各種真實世界的“臟信息”:網絡波動、彈窗打斷、廣告遮擋……
2024 年 10 月 25 日,我們發布了第一個能夠在真機上穩定完成一條完整操作鏈路的 AutoGLM,
它被業內視為全球首個具備 Phone Use 能力的 AI Agent。
2.第一個由 AI 發出的紅包
2024 年 11 月,AutoGLM 發出了人類歷史上第一個由 AI 完成的手機紅包:不是腳本錄制,不是內嵌 API 調用,而是通過在屏幕上“看見”界面、“理解”含義,一步一步完成點擊。
對我們來說,這是一個信號:
從此以后,手機上的很多交互,第一次可以完全由 AI 接手。
![]()
3.走向云手機:把能力放到一個更安全的空間
2025 年,我們發布了 AutoGLM 2.0,驗證了強化學習的規模擴展定律,提出了 MobileRL、ComputerRL 和 AgentRL 算法,讓 AutoGLM 在上千個虛擬設備環境里同時強化學習,極大擴展了 Agent 的準確性和泛化能力。
更關鍵的是,我們不希望 Agent 直接在用戶真實手機、真實微信上肆意操作,于是選擇把它放進一臺和用戶真實世界脫離的虛擬手機里:
- 這臺手機跑在云端;
- 每一個動作都可以回放、審計、干預;
- 真正敏感的數據可以嚴格隔離。
這套設計背后的直覺很簡單:
讓 AI 會用手機之前,我們要先保證,它不會在不該點的地方胡亂伸手。
除了云手機的選擇,我們主動放棄了操作微信等這些離用戶隱私較近的 APP。
為什么要開源?
我們真正在意的是什么?
從產品的角度,AutoGLM 已經可以支撐起很多真實場景;從工程的角度,AutoGLM的積累足夠寫成一大摞技術報告。
那為什么,在這個時間點,我們選擇把它開源?
我們想清楚的,大概有三件事。
1.這件事只在一家公司做,是不夠的
AI 手機已經是趨勢,但如果“會用手機的 AI 能力”只掌握在極少數廠商手里,那意味著:
- 開發者的創新空間,要看平臺愿不愿意開放接口;
- 用戶日常生活中最重要的那臺設備,越來越像“別人家的入口”。
AutoGLM 開源的第一層初衷,是把這一層能力變成整個行業可以共同擁有、共同打磨的公共底座。
你可以把它當成一塊積木,放進你自己的系統里,也可以把它拆開、重寫、改造,那一刻起,它就不再只是“智譜的 AutoGLM”,而是你和你的團隊做出來的東西的一部分。
2.讓隱私和控制權,真正留在使用方這一側
我們也很清楚,Phone Use 能力,一旦做大,天然會碰到最敏感的那一部分世界:個人微信、支付、聊天記錄、照片相冊、企業內部系統。
我們不希望也不應該,把這些東西握在自己手里。
通過開源和私有化部署,企業和開發者可以在自己的合規環境中完整掌控數據、日志和權限。
可以讓手機,成為專屬自己的 AI 手機。
用一句話概括就是:
技術向整個生態開放,
數據與隱私,永遠留在使用方這一側。
3.把我們走過的路,變成大家在Agent爆發時代的起跑線
AutoGLM是一條很陡的路:我們啃過的技術難題、踩過的坑、重寫過的框架,
在很多場景里都可以復用,也值得被復用。
但這還不夠,“一花獨放不是春”。Agent 的爆發,需要所有人一起參與。
我們更樂見的是:
- 有團隊基于 AutoGLM,做出真正意義上的 AI 原生手機;
- 有研究者把其中的某個模塊拆出來,變成一篇論文、一套新算法;
- 有個人開發者把一個 Demo 改成自己的項目,在某個小眾場景里真正跑起來。
我們希望開源社區:
從今天開始,人人都可以擁有自己的手機 Agent。
你現在能拿到什么
我們開源的,是一整套可以「拿來就用」的能力,而不僅僅是一份概念說明。
具體包括:
- 訓練好的核心模型;
- Phone Use 能力框架與工具鏈;
- 可直接跑通的 Demo,覆蓋 50+ 高頻中文 App;
- 針對 Android 的適配層與示例工程;
- 文檔、快速上手指南。
模型會以 MIT 開源許可證的形式開放,而所有代碼會以 Apache-2.0 開源許可證的形式,托管在 GitHub 倉庫(示例:github.com/zai-org/Open-AutoGLM)中。
你可以把它當成一套現成的基礎設施,也可以單獨拆用其中的某一部分,甚至可以把它改得面目全非——只要它幫助你更接近你心目中的「AI 原生手機」。
接下來
現在的 AutoGLM 不是一個完美的答案。真實世界的手機和應用,它還遠遠沒有全部見過。未來的 AI 手機生態,也一定會有比我們今天想象得更驚喜的形態。
我們做的,只是把對“AI 會不會用手機”這個問題的一次完整回答,誠實地、原原本本地,交到你們手里。
在 2025 年尾的這個時刻,正如 Andrej Karpathy 所說,
從今天開始,人人都可以擁有自己的手機 Agent。我們面對的大概不只是“Agent 元年”,而更可能是“Agent 的十年”。
接下來,AutoGLM 團隊會繼續努力,讓我們一起推動 Agent 開源和研究,那個夢想中的“賈維斯”,才會真的在我們人人身邊出現。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.