AI手機(jī)的技術(shù)路線已形成鮮明分野。
12月19日,字節(jié)跳動(dòng)在聯(lián)合中興努比亞推出“豆包手機(jī)”nubia M153后再傳擴(kuò)圍動(dòng)作——正與vivo、聯(lián)想、傳音等廠商推進(jìn)AI手機(jī)合作。
以“豆包手機(jī)”為代表的陣營,憑借讀屏、模擬點(diǎn)擊等GUI(圖形用戶界面)技術(shù),試圖讓AI助手突破應(yīng)用壁壘完成復(fù)雜任務(wù),卻引發(fā)主流App集體“自衛(wèi)”。
反觀海外,蘋果、谷歌主導(dǎo)的陣營,則堅(jiān)持API(應(yīng)用程序接口)標(biāo)準(zhǔn)化路線,雖穩(wěn)健卻進(jìn)展遲緩。
![]()
兩種技術(shù)路線的博弈,是移動(dòng)互聯(lián)網(wǎng)十余年商業(yè)邏輯與利益格局的劇烈碰撞。流量入口遷移的序幕已然拉開,手機(jī)廠商、應(yīng)用開發(fā)者與用戶的關(guān)系正被深度改寫。
GUI接管屏幕:豆包撕開系統(tǒng)級(jí)權(quán)限口子,智譜開源補(bǔ)位
這場路線之爭的導(dǎo)火索,是12月初字節(jié)跳動(dòng)聯(lián)合中興努比亞發(fā)布的“豆包手機(jī)”nubia M153。這款手機(jī)憑借跨應(yīng)用AI操作能力攪動(dòng)行業(yè):用戶只需發(fā)出語音指令,AI便能完成訂外賣、發(fā)微信、比價(jià)購物等一系列跨App任務(wù),其技術(shù)核心是GUI(圖形用戶界面)多模態(tài)大模型與系統(tǒng)級(jí)權(quán)限的深度綁定。
豆包手機(jī) 圖片來源:中興商城
前小米OS AI產(chǎn)品專家、現(xiàn)出海AI應(yīng)用公司ExcelMaster.ai創(chuàng)始人張和告訴《每日經(jīng)濟(jì)新聞》記者(以下稱每經(jīng)記者),通過與手機(jī)廠商(如中興)達(dá)成操作系統(tǒng)層面的深度合作,讓AI助手獲得凌駕于所有App之上的系統(tǒng)級(jí)操作權(quán)限。其技術(shù)邏輯是模擬人類的點(diǎn)擊、滑動(dòng)等操作,貫通全手機(jī)應(yīng)用,實(shí)現(xiàn)跨App的任務(wù)執(zhí)行。
但AI助手直接“接管”屏幕,很快引發(fā)主流App的“自衛(wèi)反擊”:微信提示環(huán)境異常甚至封號(hào),淘寶頻繁彈出人機(jī)驗(yàn)證,各大銀行App則直接拒絕在錄屏狀態(tài)下運(yùn)行。
12月9日,智譜AI宣布開源自主任務(wù)模型AutoGLM,為GUI路線提供了另一種可能性。
AutoGLM同樣基于GUI范式,通過視覺大模型實(shí)現(xiàn)手機(jī)自動(dòng)化操作,但此前因未獲廠商系統(tǒng)級(jí)權(quán)限支持,只能依賴安卓無障礙模式運(yùn)行。
張和指出,無障礙模式存在明顯短板:“AI操作時(shí)會(huì)完全占據(jù)前臺(tái)窗口,比如操作淘寶一分鐘內(nèi),用戶無法刷微博、聊天。”但他強(qiáng)調(diào),豆包與智譜AutoGLM本質(zhì)同源,都是大模型廠商視角的探索,僅開源與否的差異。“只要手機(jī)廠商配合,智譜AutoGLM也能實(shí)現(xiàn)后臺(tái)靜默操作,核心癥結(jié)始終是系統(tǒng)權(quán)限。”
獲得中興努比亞手機(jī)的系統(tǒng)級(jí)權(quán)限,是豆包率先做出AI手機(jī)的核心原因之一。
但張和指出,這類合作的主動(dòng)權(quán)掌握在手機(jī)廠商手里——并非廠商不具備同等技術(shù)研發(fā)能力,而是“要不要做(AI手機(jī))”的戰(zhàn)略考量。
廠商的顧慮主要有兩點(diǎn):首先是用戶對(duì)隱私泄露的普遍擔(dān)憂,貿(mào)然開放權(quán)限可能嚴(yán)重影響手機(jī)品牌的用戶口碑和形象;其次,手機(jī)廠商希望將系統(tǒng)級(jí)AI入口牢牢掌握在自己手中,而非淪為AI公司的技術(shù)通道。
“這也解釋了為何豆包的首個(gè)合作伙伴是中興努比亞,而非頭部廠商。”張和補(bǔ)充道。
蘋果、谷歌“慢半拍”:API路線的保守布局
豆包手機(jī)的出現(xiàn),也引發(fā)了全球范圍內(nèi)關(guān)于AI手機(jī)兩條技術(shù)路線——GUI范式與API(應(yīng)用程序接口)范式——的對(duì)比和討論。
豆包和智譜的GUI,如同一個(gè)“AI保姆”,它像人一樣看著手機(jī)屏幕,幫用戶操作手機(jī)。蘋果和谷歌的API路線,則像給App們發(fā)了一套“手冊(cè)”,讓它們自己把功能開放出來給系統(tǒng)調(diào)用。
兩者的優(yōu)劣對(duì)比十分鮮明:GUI不依賴App開發(fā)者配合,通過視覺大模型“讀取”屏幕、模擬人類點(diǎn)擊實(shí)現(xiàn)操作,優(yōu)點(diǎn)是通用性強(qiáng),理論上人能使用的App它都能駕馭;但缺點(diǎn)同樣突出,一是隱私保護(hù)壓力大,二是效率較低,需逐步驟操作且易出錯(cuò)。
以蘋果Apple Intelligence為代表的API范式,不是通過模擬,而是構(gòu)建底層框架與標(biāo)準(zhǔn)化接口,讓AI通過規(guī)范“調(diào)用能力”完成任務(wù)。這種模式的優(yōu)點(diǎn)是穩(wěn)定、保障隱私且效率高,缺點(diǎn)則是需要App開發(fā)者主動(dòng)配合,生態(tài)構(gòu)建周期更長。
![]()
![]()
iPhone 17搭載Apple Intelligence 圖片來源:蘋果官網(wǎng)
張和評(píng)價(jià)蘋果是“最保守的大玩家”。
2022年,蘋果推出Apps Intent框架,鼓勵(lì)開發(fā)者向系統(tǒng)聲明功能供Siri調(diào)用,但堅(jiān)決不開放讀屏繞開應(yīng)用的能力;即便未落地的“屏幕感知”功能,也選擇通過API向Siri提供屏幕內(nèi)容,而非直接操控界面。
當(dāng)前,蘋果Apple Intelligence集成了OpenAI的ChatGPT。而據(jù)媒體報(bào)道,蘋果正計(jì)劃采用谷歌的Gemini模型,為Siri語音助手升級(jí)提供技術(shù)支撐。蘋果希望將該技術(shù)作為臨時(shí)解決方案,直到自家模型足夠強(qiáng)大。
![]()
Pixel 10搭載Gemini大模型 圖片來源:谷歌官網(wǎng)
谷歌則走端云協(xié)同路線,且優(yōu)先布局電腦端。旗下Gemini大模型具備強(qiáng)大端云協(xié)同能力,但手機(jī)端未采用GUI多模態(tài)操作;推出的AppFunctions API,旨在解決生態(tài)內(nèi)的碎片化問題,實(shí)現(xiàn)系統(tǒng)對(duì)應(yīng)用能力的統(tǒng)一發(fā)現(xiàn)與索引。
谷歌和蘋果均傾向于推動(dòng)應(yīng)用開發(fā)者主動(dòng)接入標(biāo)準(zhǔn)化接口,實(shí)現(xiàn)AI助手跨應(yīng)用協(xié)作。
張和透露,目前兩家公司尚未在手機(jī)上推出GUI多模態(tài)操作相關(guān)功能,仍處于技術(shù)儲(chǔ)備階段。“谷歌一方面需要協(xié)調(diào)安卓生態(tài)的手機(jī)廠商,另一方面也在觀望市場反饋和技術(shù)成熟度。”
AI生態(tài)洗牌:手機(jī)廠商、超級(jí)App與長尾應(yīng)用的利益重構(gòu)
市場調(diào)查機(jī)構(gòu)Canalys報(bào)告顯示,得益于芯片技術(shù)的快速發(fā)展和消費(fèi)者對(duì)AI功能日益增長的需求,全球AI手機(jī)出貨占比將從2024年的16%升至2028年的54%。該機(jī)構(gòu)預(yù)計(jì),2023年至2028年的年復(fù)合增長率將達(dá)到63%,三星和蘋果等主要玩家將推動(dòng)這一增長。
技術(shù)路線的抉擇,最終將指向移動(dòng)互聯(lián)網(wǎng)利益格局的深度重構(gòu)。
“靠AI助手去購物,相當(dāng)于直接介入交易,互聯(lián)網(wǎng)大廠自然擔(dān)心商業(yè)模式受影響。”張和點(diǎn)出了超級(jí)App集體“自衛(wèi)”的核心焦慮。
API類似手機(jī)廠商向各家互聯(lián)網(wǎng)大廠商議,讓后者開發(fā)接入手機(jī)智能助手的API接口,在限定范圍內(nèi)向AI開放部分功能。這一模式下,主動(dòng)權(quán)掌握在互聯(lián)網(wǎng)大廠手中,是否開放API接口、對(duì)誰開放、開放多少功能,都是未來提供議價(jià)權(quán)的籌碼。
而GUI Agent可以通過“看屏幕、點(diǎn)按鈕”的方式來操作App,相當(dāng)于繞過了App對(duì)AI許可授權(quán)的過程。
更關(guān)鍵的是,GUI Agent將用戶操作截留在了手機(jī)系統(tǒng)層面:用戶無需打開App,就能使用其核心功能。這意味著,App上的廣告投放將失去核心價(jià)值——而廣告收入正是互聯(lián)網(wǎng)行業(yè)的重要營收來源。
張和認(rèn)為,未來AI手機(jī)的生態(tài)將呈現(xiàn)“分層治理”格局,不同體量玩家命運(yùn)迥異。
對(duì)于微信、淘寶等超級(jí)App而言,短期可以通過技術(shù)手段抵制外部AI讀屏,保護(hù)商業(yè)數(shù)據(jù)與用戶隱私。長期最優(yōu)解是自研AI Agent,形成Agent to Agent(A2A)協(xié)作模式:系統(tǒng)級(jí)AI將用戶意圖傳遞給應(yīng)用Agent,后者在權(quán)限內(nèi)完成操作。這種模式既保護(hù)超級(jí)App“領(lǐng)地”,又能融入AI手機(jī)生態(tài)。
對(duì)于數(shù)以百萬計(jì)的中長尾App來說,處境則將完全不同。
張和認(rèn)為,長尾App因缺乏自研Agent的技術(shù)與商業(yè)話語權(quán),大概率將“被系統(tǒng)級(jí)AI直接控制”。對(duì)它們而言,與其投入資源拉新獲客,不如接受系統(tǒng)級(jí)級(jí)AI操作,換取新生態(tài)的流量分發(fā)。手機(jī)廠商或會(huì)制定標(biāo)準(zhǔn)化利益分配條款,讓長尾應(yīng)用“搭上生態(tài)紅利”。
“這就像自動(dòng)駕駛,是不可逆轉(zhuǎn)的歷史趨勢。”張和總結(jié)道。以用戶需求為核心的變革,將推動(dòng)生態(tài)從“流量爭奪”走向“價(jià)值共創(chuàng)”,最終形成手機(jī)廠商主導(dǎo),超級(jí)App、長尾應(yīng)用和大模型廠商各司其職的全新格局。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.