昨天深夜12點多,智譜干了個挺有意思的事。
直接把他們的手機Agent,也就是AutoGLM開源了。
![]()
開源鏈接在此: https://github.com/zai-org/Open-AutoGLM
挺感慨的,一年前的10月25號,AutoGLM在 CNCC上正式發布,那時候我也做了,雖然很坦誠的講,那時候的AutoGLM,還不成熟,成功率也不算高,支持的APP也不算多。
但,那是 我們第一次見到了手機Agent的模樣。
那個時候,真的就跟見到新世代的產物一樣,瘋狂臥槽。
![]()
這是一年前第一次體驗AutoGLM的時候,沒忍住,給智譜的朋友發的聊天記錄。。。
而現在,在豆包手機助手被全面封禁之際,這個手機Agent的鼻祖,選擇用開源的方式,為這個技術世界,再添一把新的柴火。
從2023年啟動研究開始,到今天,整整32個月,然后,把這個足以跟豆包掰掰手腕的模型和框架, 一把開源。
一個豆包倒下了,千千萬萬個AutoGLM站起來了。
不知道為什么,這個場景,讓我想到了一部很經典的電影。
《V字仇殺隊》。
![]()
不過多解釋這部電影了,看過的朋友肯定明白我在說什么。
V死了,但V,無處不在。
說回到智譜的這個開源版本的AutoGLM。
這次其實開源的是Phone Agent這個手機端智能助手框架,還有一個AutoGLM-Phone-9B的模型,共同組合成了這次開源的AutoGLM。
![]()
安裝過程和使用過程我就不放了,感興趣的朋友可以去Github上直接看操作教程,比較的麻煩,不是那種傻瓜一樣的安裝安裝即用。
這就是專門給開發者使用的。
很多朋友在評價豆包的時候,都會提到隱私問題,這個確實是問題,但是在我也一直說,這個問題在我看來是有解的。
在昨天寫豆包的文章中,我得原話是:
“我們現在手機上的芯片算力是還差點意思,所以得聯網跑模型。 但你得信AI時代的摩爾定律啊,只要手機里芯片再迭代兩代,視覺推理模型智力再提一提,尺寸再壓一壓,到時候就一個8B或者9B的端側小模型在手機上本地跑,所有的隱私都不是啥問題。 這個AI哪怕把你的聊天記錄、支付密碼背得滾瓜爛熟,它也只在你的本地跑,任何數據連哪怕一個比特都不傳出你的手機。 這就是端側推理的終局。” 數字生命卡茲克,公眾號:數字生命卡茲克
2年時間,這大概就是我的預期。
而這次智譜的AutoGLM,就給了一個中間態的解法。
就是現在來說,9B的模型在這個階段,不是大部分手機上跑不動嘛,那咱們就不在手機上跑端側模型,用你的本地電腦或者自己的云服務掛一層,給手機當云模型的服務器用,變相解決當前時間點,手機端算力不足但是又要跑端側從而保護個人信息隱私的問題。
目前有3種部署模式。
本地部署(模型+執行):屏幕捕獲、模型分析、操作執行均在本地設備完成,數據不離開設備,隱私性最高。
云端部署(模型+執行):屏幕內容需從操作環境(本機或云設備)傳輸到云端模型,模型分析后指令返回操作環境執行,開發者要自己確保傳輸和云端處理的安全性。
混合部署(如本地執行+云端模型):屏幕內容在本地捕獲,傳輸到云端模型分析,分析結果返回本地執行。
我大概折騰了一下,把電腦跟手機連上了,給大家看一下大概的效果。
比如這個抽象的任務:
不過因為不是系統級別的手機助手,所以豆包那樣的后臺虛擬屏運行就別想了,這個確實沒有辦法。
還有這個差旅的任務。
而且因為本地模型的限制,速度慢一點點,也笨一點點。
目前大概支持50個應用。
![]()
但是再怎么說,它也是現在為數不多的,完全開源的手機Agent方案了。
很多人都說手機廠商已經做了手機Agent,但是我想說,大家可能不知道,去年還挺火的榮耀的YOYO智能助手,用嘴點了2000杯咖啡,這背后,其實就是AutoGLM。
![]()
現在,AutoGLM一開源,往后短短幾個月,肯定不會只有它一個。
當年 Stable Diffusion 一開源,整條視覺生成路徑就變了天,一個開源模型,最后變成了無數應用的底層基建,從畫頭像、做海報、做素材庫,一路狂卷,至今精神續作Flux還是很多企業內部的核心基建。
還有雖然LLaMA現在已經式微了,但是你不可否認,當年那次模型的泄漏,本質上也是無數開源LLM的導火索,后來一堆變體大模型、LoRA等等,都是從那一陣大爆炸里長出來的。
在結合著豆包手機助手被封殺的背景,智譜這次開源AutoGLM,還是挺燃的。
有一句話說的好,開源精神,就是奔向共產主義的一把利劍。
這件事在技術史里出現過很多次。
Linux剛開源的時候,桌面體驗爛得要死,裝個驅動都能把人裝自閉。
但你不能否認,是它把操作系統這件事從巨頭手里一點點撬出來,以菩薩之威,送了無數人的機房、實驗室、機頂盒、路由器、NAS、電視盒子里。
后來安卓也站在了同一條河流里,它不一定是最好用的,但它足夠開放,足夠多的人可以在上面建自己的東西,于是,誕生了那么多的魔改OS。
Arduino、樹莓派、這些小板子也干過類似的事。
你給普通人一塊可編程的硬件,他一開始只會拿來點個燈、連個溫度計,用著用著,突然有人拿它做了空氣監測、做了自動澆花、做了開源機器人。
這些玩具本身可能賺不到什么錢,但它們把我可以控制現實世界一點點這個種子,種進了很多人的腦子里。
豆包被封禁的這幾天,很多人都在討論“平臺之爭”“生態封鎖”“注意力戰爭”,這些討論我覺得都沒有錯,誰掌握入口,誰有用戶心智,誰能從流量池里多扒一點錢出來。
而一個開源的手機Agent呢,如果入口這個東西,不再是某家公司的APP圖標,而是我自己部署在家里的一個Agent呢,會怎么樣?
這個問題聽上去很烏托邦,但是當年互聯網剛出來的時候,任何人都可以生產內容,在傳統媒體眼里,可能也同樣像瘋話。
傳統媒體會說,內容生產是專業機構的事,發行是專門渠道的事,你一個普通人,怎么可能有能力、也有資格來做這件事。
后來博客、論壇、自媒體、短視頻、直播一波一波起來,今天你再看,任何人都可以發聲,已經成了一個再普通不過的事實。
現在的AutoGLM,你當然可以說它跟真正的賈維斯相比還有距離,但你不能否認,那個我可以自己搞一個手機Agent手機助手的種子,已經從此以后不會再消失了。
每一個人,都可以魔改,都可以擁有,一個只在你本地設備上運行的,只為你服務的,真正的Agent。
這也是我為什么會想到《V字仇殺隊》。
那里面V一直戴著面具,最后死在一輛裝滿炸藥的列車上。
![]()
他死了,但他那張面具沒有死。
面具被復制、被戴上街頭,變成任何一個人都可以是V的象征。
技術的洪流,滾滾向前,沒有任何人可以阻擋。
我們和Agent的關系,未來會變成什么樣,我現在也給不出答案。
可能十年之后,大家已經習慣了身邊有一兩個長期伴隨的AI助手,早上叫你起床,幫你安排行程,過濾掉大量垃圾信息。
你會像習慣Wi-Fi一樣習慣它們的存在,只有在它們暫時宕機的那幾分鐘,才會想起來原來沒有它們的生活這么麻煩。
也有可能,我們會在一路狂奔之后,猛然發現自己把太多東西外包了出去。
外包了記憶,外包了判斷,外包了品味,外包了那一點點在信息面前先停下來再想一想的能力。
那時候,新的反思又會開始,新的“斷舍離”和“數字極簡主義”會被包裝成潮流,告訴你要關掉一部分Agent,重新找回真實生活。
但我想說,技術從來不會替我們做最后的價值選擇,它最多只是把更多可能性擺在我們面前。
這個人生要如何而活,只取決于我們自己。
豆包的封禁是一次選擇,AutoGLM的開源是一次選擇,我們用什么手機、部署什么Agent、愿不愿意自己折騰一套本地系統,也是一次選擇。
這些選擇拼在一起,才是這個時代真正的,集體意志。
這是一個,燦爛的時代的起點。
最后,我挺想用我很喜歡很喜歡的一本書,叫《悟空傳》,里面的最后的一段話來給這篇文章,做一個結尾。
![]()
幾個時辰后,這百萬妖眾象一塊被風吹散的烏云,無影無蹤了。
“花果山,什么時候才能重新長出花果來?不過,種子已經撒遍天下了。”他又抓了一把地上的黑土,臉上露出孩童般的笑來。
天邊的雷鳴已然越來越近了。
孫悟空靠在一棵焦樹上,靜靜的等著。
等到那一剎,黑暗的天空突然被一道巨大的閃電劃開。
孫悟空一躍而起,將金箍棒直指向蒼穹。
“來吧!”
那一刻被電光照亮的他的身姿,千萬年后仍凝固在傳說之中。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.