《科創(chuàng)板日?qǐng)?bào)》12月10日訊(記者 李明明) 12月初,字節(jié)跳動(dòng)“豆包手機(jī)助手”隨聯(lián)名機(jī)型亮相,悄然掀起關(guān)于未來(lái)手機(jī)形態(tài)與AI生態(tài)的行業(yè)探討,隨后該產(chǎn)品因涉及微信、淘寶等應(yīng)用的適配爭(zhēng)議引發(fā)關(guān)注。時(shí)隔一周,大模型獨(dú)角獸智譜于12月9日正式宣布,將其核心AI Agent模型——AutoGLM全面開(kāi)源。
此舉不僅讓圍繞手機(jī)AI入口的行業(yè)探索愈發(fā)深入,更將操作手機(jī)的核心能力向全行業(yè)開(kāi)放,使這場(chǎng)行業(yè)關(guān)注的焦點(diǎn)從具體終端產(chǎn)品落地,逐步延伸到關(guān)乎未來(lái)生態(tài)格局的核心技術(shù)能力共建。
這一舉動(dòng),也被外界解讀為智譜在“豆包”點(diǎn)燃AI手機(jī)熱潮后,以截然不同的“開(kāi)源”策略,強(qiáng)勢(shì)競(jìng)逐下一代人機(jī)交互入口控制權(quán)的關(guān)鍵落子。那么,在這場(chǎng)決定未來(lái)格局的戰(zhàn)役中,手握“操作系統(tǒng)級(jí)”Agent能力的智譜,能否成功?
智譜AutoGLM部門負(fù)責(zé)人劉瀟告訴《科創(chuàng)板日?qǐng)?bào)》記者,AI手機(jī)的發(fā)展為移動(dòng)互聯(lián)網(wǎng)注入了Agent自主執(zhí)行帶來(lái)的新增流量,但新生態(tài)與協(xié)同關(guān)系的構(gòu)建,仍需依托AI手機(jī)普及及與各App生態(tài)的深度磨合,尚需時(shí)日。
實(shí)測(cè)AutoGLM
據(jù)悉,本次開(kāi)源的是一套“拿來(lái)就用”的完整能力包,包括訓(xùn)練好的核心AI Agent模型、Phone Use能力框架與工具鏈,目前AutoGLM已支持微信、淘寶、抖音、美團(tuán)等超過(guò)50個(gè)高頻中文應(yīng)用的核心場(chǎng)景,其自動(dòng)化操作能力與日前引發(fā)熱議的“豆包手機(jī)”演示相似。
AutoGLM通過(guò)一整套Phone Use能力框架,能在真機(jī)上穩(wěn)定完成一系列操作,諸如發(fā)送微信紅包、外賣點(diǎn)單、機(jī)票預(yù)訂等。
智譜方面對(duì)《科創(chuàng)板日?qǐng)?bào)》記者介紹,智譜自2023年4月開(kāi)始投入Phone use方向,2025年8月發(fā)布AutoGlM2.0即可完成大家所見(jiàn)的豆包手機(jī)的功能。
《科創(chuàng)板日?qǐng)?bào)》記者對(duì)AutoGLM進(jìn)行了實(shí)測(cè),下達(dá)“幫我在美團(tuán)點(diǎn)一杯冰豆花”指令后,系統(tǒng)通過(guò)云端虛擬手機(jī)自主完成打開(kāi)App、搜索店鋪、篩選商品、關(guān)閉廣告彈窗等操作,最終跳轉(zhuǎn)至結(jié)賬界面,按指南在支付前停止操作,全程耗時(shí)約一分半鐘。
![]()
這一效率較真人手動(dòng)操作提升較為明顯,根據(jù)實(shí)測(cè),普通用戶手動(dòng)完成同款飲料點(diǎn)單,需經(jīng)歷瀏覽推薦、確認(rèn)店鋪、選擇規(guī)格、核對(duì)訂單等步驟,平均耗時(shí)3-5分鐘,AutoGLM通過(guò)流程自動(dòng)化將耗時(shí)壓縮70%以上。通過(guò)跨應(yīng)用操作的連貫性,依托GLM-4.5V視覺(jué)推理模型,能識(shí)別50余款高頻中文應(yīng)用的UI元素,完成點(diǎn)擊、滑動(dòng)、輸入等擬人化操作。
《科創(chuàng)板日?qǐng)?bào)》記者繼續(xù)加大難度,對(duì)AutoGLM下達(dá)了商品比價(jià)的復(fù)雜任務(wù),發(fā)出“給我比對(duì)32K顯示器哪個(gè)購(gòu)物平臺(tái)便宜,找一個(gè)最便宜的下單”,AutoGLM用時(shí)1分44秒完成了任務(wù)。
![]()
![]()
綜合體驗(yàn)來(lái)說(shuō),AutoGLM在生活、辦公等場(chǎng)景表現(xiàn)亮眼,但成功率層面仍存一定短板。實(shí)測(cè)中發(fā)現(xiàn),遇到設(shè)計(jì)特殊的APP界面時(shí),可能出現(xiàn)操作適配不順暢的情況。
智譜AutoGLM部門負(fù)責(zé)人劉瀟也對(duì)《科創(chuàng)板日?qǐng)?bào)》記者分析,從應(yīng)用形態(tài)來(lái)看,AutoGLM核心關(guān)注點(diǎn)集中于三點(diǎn):一是操作準(zhǔn)確性,這是保障用戶體驗(yàn)的基礎(chǔ);二是復(fù)雜任務(wù)執(zhí)行能力,鑒于第三方應(yīng)用內(nèi)部邏輯通常較為繁瑣,市場(chǎng)普遍關(guān)注AutoGLM能否高效完成長(zhǎng)鏈路、高復(fù)雜度的任務(wù);三是數(shù)據(jù)安全問(wèn)題,該模型在實(shí)現(xiàn)跨應(yīng)用操作過(guò)程中,數(shù)據(jù)安全風(fēng)險(xiǎn)也成為行業(yè)及用戶重點(diǎn)關(guān)切的內(nèi)容。目前,AutoGLM正針對(duì)上述核心訴求持續(xù)優(yōu)化,以提升技術(shù)適配性與應(yīng)用安全性。
從“豆包”圍城,到人人皆Agent的AI新紀(jì)元
智譜在此時(shí)開(kāi)源,與“豆包”此前引發(fā)的市場(chǎng)教育和生態(tài)沖突密不可分。
12月1日,字節(jié)跳動(dòng)推出的“豆包手機(jī)”工程樣機(jī),以其系統(tǒng)級(jí)權(quán)限和跨應(yīng)用自動(dòng)化能力,讓市場(chǎng)第一次直觀感受到“AI Agent手機(jī)”的顛覆性潛力。其“所見(jiàn)即可問(wèn),所言即可為”的跨應(yīng)用操作,與AutoGLM的能力描述高度重合。
然而,“豆包”的迅速走紅,也瞬間遇到了現(xiàn)有互聯(lián)網(wǎng)生態(tài)的挑戰(zhàn)。
周鴻祎此前坦言,這種能繞過(guò)App直接完成任務(wù)、讓服務(wù)直達(dá)用戶的AI助手,會(huì)直接沖垮互聯(lián)網(wǎng)大廠的護(hù)城河。很快,用戶反饋微信、淘寶等應(yīng)用出現(xiàn)登錄異常或風(fēng)控提示。迫于壓力,豆包團(tuán)隊(duì)在12月5日發(fā)布公告,對(duì)金融支付、刷分激勵(lì)等敏感場(chǎng)景的AI操作能力進(jìn)行了規(guī)范化限制。
這場(chǎng)風(fēng)波也揭示了AI手機(jī)入口爭(zhēng)奪的核心矛盾:系統(tǒng)級(jí)AI對(duì)現(xiàn)有移動(dòng)互聯(lián)網(wǎng)權(quán)力結(jié)構(gòu)的根本沖擊。一旦跨應(yīng)用操作被AI統(tǒng)一調(diào)度,App 對(duì)用戶路徑、賬號(hào)安全、業(yè)務(wù)鏈路與商業(yè)模型的控制將被削弱。
豆包與AutoGLM代表著AI手機(jī)發(fā)展的兩條不同路徑。技術(shù)架構(gòu)方面,豆包手機(jī)是系統(tǒng)級(jí)集成,依賴Android系統(tǒng)權(quán)限,AutoGLM是視覺(jué)大模型+ADB指令,開(kāi)源框架;商業(yè)模式上,豆包手機(jī)為封閉生態(tài),字節(jié)親自下場(chǎng)整合硬件,AutoGLM則為開(kāi)放生態(tài),賦能全行業(yè)開(kāi)發(fā)者。
行業(yè)定位上,豆包手機(jī)為超級(jí)助手/潛在AI操作系統(tǒng),AutoGLM是行業(yè)公共技術(shù)底座。
豆包的“封閉嵌入” vs AutoGLM的“開(kāi)源雙部署”,這兩種戰(zhàn)略背后的底層邏輯是什么?是否源于基因差異?
北京計(jì)算機(jī)學(xué)會(huì)AI專委會(huì)秘書(shū)長(zhǎng)、北大人工智能博士張有魚(yú)告訴《科創(chuàng)板日?qǐng)?bào)》記者,豆包(字節(jié)跳動(dòng))的核心邏輯是搶占入口:移動(dòng)互聯(lián)網(wǎng)時(shí)代搶App,AI時(shí)代搶OS(操作系統(tǒng))。字節(jié)無(wú)手機(jī)硬件,但手握抖音、頭條等C端生態(tài)及算法優(yōu)勢(shì),通過(guò)“封閉云架構(gòu)+系統(tǒng)級(jí)嵌入”,欲將大模型打造成新OS內(nèi)核。因頭部廠商自研OS防字節(jié),豆包選擇與急需差異化的二線廠商(如努比亞)合作,以“寄生突圍”策略突破壁壘。
而智譜AutoGLM的核心邏輯是技術(shù)極客的“底層賦能”:源自清華系的技術(shù)派基因,聚焦“模型+開(kāi)源”而非流量變現(xiàn)。因無(wú)字節(jié)級(jí)C端生態(tài),難與微信、抖音角逐C端入口,故依托國(guó)內(nèi)頂尖Agent(智能體)技術(shù)(如AutoGLM手機(jī)操作能力),采用“全能力開(kāi)源”的安卓式打法——不做封閉生態(tài),而是向硬件廠商、開(kāi)發(fā)者免費(fèi)開(kāi)放核心能力,以技術(shù)標(biāo)準(zhǔn)定義未來(lái),走差異化技術(shù)供應(yīng)商路線。
AI手機(jī)入口爭(zhēng)奪戰(zhàn)進(jìn)入新階段
智譜AutoGLM的開(kāi)源,標(biāo)志著AI手機(jī)入口之爭(zhēng)進(jìn)入了下半場(chǎng):從爭(zhēng)奪“硬件終端”或“單一入口App”,升級(jí)為爭(zhēng)奪生態(tài)的“核心靈魂”——即那個(gè)能真正理解并操作手機(jī)的系統(tǒng)級(jí)AI能力。
業(yè)內(nèi)熱議本次開(kāi)源是“掀桌子”,核心在于智譜選擇了一條讓巨頭難以防御的技術(shù)路徑。
技術(shù)方面,不同于傳統(tǒng)腳本依賴易被封禁的無(wú)障礙服務(wù)(Accessibility),AutoGLM在底層調(diào)用了ADB(Android Debug Bridge)指令,并結(jié)合視覺(jué)大模型(AutoGLM-Phone-9B)。其運(yùn)行邏輯是“看屏幕截圖 -> 大模型分析 -> 模擬手指點(diǎn)擊”。這種基于視覺(jué)的“類人操作”,讓APP廠商通過(guò)簡(jiǎn)單的代碼檢測(cè)進(jìn)行防御變得極其困難。只要人眼能看懂界面,AI就能操作。
智譜方面對(duì)《科創(chuàng)板日?qǐng)?bào)》記者介紹,目前AI手機(jī)卡在模型、手機(jī)廠商、系統(tǒng)、APP間的生態(tài)話語(yǔ)權(quán)戰(zhàn),AutoGLM的開(kāi)源可以大幅解決玩家由于商業(yè)戰(zhàn)爭(zhēng)導(dǎo)致的AI手機(jī)卡點(diǎn),大幅降低AI手機(jī)技術(shù)門檻,推動(dòng)AI手機(jī)生態(tài)從封閉走向開(kāi)放共創(chuàng)。AI手機(jī)后期產(chǎn)品有望從手機(jī)廠商、系統(tǒng)、APP三者間共同加速嘗試走向放量。
談及AutoGLM定位,劉瀟告訴《科創(chuàng)板日?qǐng)?bào)》記者,AutoGLM在開(kāi)發(fā)階段定位為通用多模態(tài)理解與操作模型,因此暫未與第三方應(yīng)用開(kāi)展深度對(duì)接,核心精力集中于技術(shù)模型的迭代優(yōu)化。
劉瀟認(rèn)為,手機(jī)的發(fā)展為移動(dòng)互聯(lián)網(wǎng)注入了Agent自主執(zhí)行帶來(lái)的新增流量,其憑借對(duì)用戶上下文的深度理解,能在更多場(chǎng)景中挖掘App使用新機(jī)會(huì),但新生態(tài)與協(xié)同關(guān)系的構(gòu)建,仍需依托AI手機(jī)普及及與各App生態(tài)的深度磨合,尚需時(shí)日。
Agent發(fā)展中,可控性與隱私保護(hù)是首要前提,需在算法及技術(shù)工程開(kāi)發(fā)初期,融入敏感操作防控與安全柵欄設(shè)計(jì);其大規(guī)模成熟還依賴行業(yè)共識(shí)凝聚及國(guó)家層面的政策規(guī)范引導(dǎo)。
當(dāng)前Agent落地仍面臨兩大核心挑戰(zhàn):一是模型能力不足,難以穩(wěn)定完成數(shù)十分鐘至數(shù)小時(shí)的長(zhǎng)鏈路任務(wù),需算法與模型企業(yè)持續(xù)突破;二是工程應(yīng)用層需完善AI手機(jī)操作系統(tǒng)、硬件適配及Agent身份認(rèn)證體系,推動(dòng)行業(yè)協(xié)同實(shí)現(xiàn)生態(tài)共贏。
劉瀟進(jìn)一步表示,希望AutoGLM能夠使得穿戴式設(shè)備,從玩具到可用的改變。以前的穿戴式設(shè)備受制于交互方式的限制,幾乎難以替代手機(jī)的任何功能,而現(xiàn)在通過(guò)AutoGLM,幾乎絕大多數(shù)簡(jiǎn)單的任務(wù)都能輕松完成。“相信 AI 手機(jī)和更多原生 AI 硬件會(huì)大量涌現(xiàn),相信安卓生態(tài)本身會(huì)面對(duì)這一訴求發(fā)生新的進(jìn)化和改變。”
張有魚(yú)判斷,未來(lái)的AI手機(jī)市場(chǎng)不會(huì)只有一個(gè)“豆包”。更可能出現(xiàn)的格局是:手機(jī)巨頭們擁有自研助手,二三線品牌和新興設(shè)備商采用AutoGLM等開(kāi)源方案快速跟進(jìn),形成多層次、多形態(tài)的競(jìng)爭(zhēng)局面。在這場(chǎng)混戰(zhàn)中,智譜通過(guò)開(kāi)源AutoGLM,已經(jīng)為自己贏得了扮演關(guān)鍵“賦能者”角色的入場(chǎng)券。它或許無(wú)法獨(dú)占入口,但極有可能成為塑造整個(gè)入口生態(tài)的重要基石之一。
這場(chǎng)關(guān)于“靈魂”的爭(zhēng)奪,才剛剛開(kāi)始。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.