一夜間,豆包手機(jī)助手變成「豆包手機(jī),住手!」
前段時(shí)間,字節(jié)跳動(dòng)豆包團(tuán)隊(duì)和中興合作,發(fā)布了搭載豆包手機(jī)助手技術(shù)預(yù)覽版的手機(jī)——努比亞 M153。在 M153 上,豆包團(tuán)隊(duì)基于其 GUI-Agent 的能力,打造了一系列「替用戶操作手機(jī)」的功能,讓我們有機(jī)會(huì)在 2025 年一覽未來 AI 手機(jī)應(yīng)該有的樣子。
![]()
圖片來源:豆包手機(jī)助手
但很快,問題就出現(xiàn)了。有用戶反饋稱,豆包手機(jī)助手在某些金融 App 里會(huì)觸發(fā)風(fēng)險(xiǎn)提示,指出手機(jī)當(dāng)前開啟了「屏幕共享」「無障礙」等服務(wù),要求用戶注意資金安全;部分 App 更是因觸發(fā)風(fēng)控直接停用了相關(guān)服務(wù)。
隨后,微信確認(rèn)了這一點(diǎn),表示沒有對(duì)豆包做任何特殊攔截,用戶遇到的情況更像是觸發(fā)了既有的通用風(fēng)控策略。豆包方面隨即下線了相關(guān)場景的操作能力,并對(duì)受影響用戶開啟解封流程,同時(shí)進(jìn)一步公開說明其權(quán)限調(diào)用方式、數(shù)據(jù)處理方式和安全邊界,重申不存在任何黑客行為或隱私侵入。
至于外界爭議最多的 INJECT_EVENTS 權(quán)限,豆包也給出了正面回應(yīng):
INJECT_EVENTS 確實(shí)是系統(tǒng)級(jí)權(quán)限,技術(shù)實(shí)現(xiàn)依賴 Android 系統(tǒng)級(jí)權(quán)限,有更嚴(yán)格的使用限制。擁有該權(quán)限許可,相關(guān)產(chǎn)品才能跨屏、跨應(yīng)用來模擬點(diǎn)擊事件,完成用戶操作手機(jī)的任務(wù)需求。
豆包手機(jī)助手需要用戶主動(dòng)授權(quán),才可以調(diào)用該權(quán)限,使用操作手機(jī)功能。該權(quán)限的使用,我們也在權(quán)限清單中進(jìn)行了明確的披露。據(jù)我們了解,目前行業(yè)的AI助手,均需要使用該權(quán)限(或與其類似的無障礙權(quán)限)才能提供操作手機(jī)的服務(wù)。
從雷科技的角度看,豆包這一解釋確實(shí)合情合理;這種不避諱關(guān)鍵爭議的做法,也值得肯定。但在雷科技看來,這場關(guān)于 AI 手機(jī)助手權(quán)限的討論,雖然由風(fēng)控誤傷引發(fā),但也是 AI 手機(jī)行業(yè)發(fā)展必將面臨的問題;處于風(fēng)暴中心的豆包,也只是把這個(gè)需要行業(yè)共同打磨的細(xì)節(jié),提前帶到了公眾面前。
AI Agent 的三部曲
要理解這場爭議背后的行業(yè)背景,我們必須先理解 AI 是怎么「用」手機(jī) App 的。從技術(shù)的角度看,「AI 操作 App」可以拆解成兩個(gè)步驟:
1. 讓 AI 看懂 App;
2. 讓 AI 操作 App。
但問題是,Android 系統(tǒng)原本從未設(shè)想過讓「一個(gè)智能體來控制另一個(gè) App」。為了讓 AI 能從系統(tǒng)(而不是 App)的層面控制其他 App,手機(jī)行業(yè)提出了三種不同的「AI 操作」路線。
第一條路線是基于 App 無障礙標(biāo)簽和 Android 系統(tǒng)無障礙服務(wù),打造的「模擬用戶」操作路線。我們知道,現(xiàn)代智能手機(jī)都有無障礙服務(wù),比如為視障群體準(zhǔn)備的文字標(biāo)簽服務(wù):開發(fā)者在開發(fā) App 時(shí),會(huì)為每一個(gè)按鈕添加「無障礙標(biāo)簽」;手機(jī)開啟無障礙讀屏功能后,手機(jī)系統(tǒng)會(huì)讀取「無障礙標(biāo)簽」并朗讀對(duì)應(yīng)內(nèi)容,讓視障用戶知道當(dāng)前選中的按鈕的作用。
![]()
圖片來源:smartisan.com
AI Agent 只要讀取 App 內(nèi)部的標(biāo)簽結(jié)構(gòu),就能理解軟件界面元素、知道每個(gè)按鈕的作用;看懂 App 后,AI Agent 再利用無障礙服務(wù)的模擬觸控功能(手機(jī)鍵精靈的同款原理),就能自主操作 App。
但我們知道,國內(nèi)移動(dòng)互聯(lián)網(wǎng)發(fā)展日新月異,主流 App 每隔幾周就要上線一個(gè)新功能,而無障礙標(biāo)簽往往是開發(fā)流程里最容易被忽略的步驟——很殘酷的現(xiàn)實(shí)是,無障礙群體在互聯(lián)網(wǎng)幾乎沒有聲量。這導(dǎo)致某些頁面、按鈕可能根本沒有標(biāo)簽,或是只有「按鈕」「窗口」這種幾乎沒有意義的字樣。面對(duì)這樣的標(biāo)簽,即使再聰明的 AI 也無能為力。
既然糟糕的無障礙支持讓 AI 搞不懂 App 結(jié)構(gòu),那為什么不讓 AI 像人一樣「直接看屏幕」呢?這也引出了 AI 交互的第二條路線:AI 通過系統(tǒng)提供的屏幕捕捉能力,實(shí)時(shí)獲取手機(jī)屏幕當(dāng)前的畫面,然后用視覺大模型去理解畫面中每個(gè)元素的功能含義。
理解當(dāng)前屏幕內(nèi)容后,AI Agent 會(huì)利用無障礙(模擬點(diǎn)擊)或 INJECT_EVENTS (應(yīng)用注入觸發(fā))來操作 App,把 AI 鏈路跑通。豆包手機(jī)助手此次引起的爭議也在這個(gè)「INJECT_EVENTS」上。
![]()
圖片來源:豆包手機(jī)助手
剛剛提到,無障礙的點(diǎn)擊本質(zhì)是「AI 代點(diǎn)」,但無障礙并不能穩(wěn)定覆蓋所有交互方式,很多界面仍需要更底層的事件注入。在這一場景下,INJECT_EVENTS 不是「破解 App」,而是用一種更底層、更原生的交互模擬方式,讓 AI 能在任何 App 上執(zhí)行更完整的操作。就目前 Android 系統(tǒng)本身的發(fā)展情況來說,「豆包路線」也是現(xiàn)階段 Android 體系里唯一能讓 AI 真正操作 App 的路線。
但歸根結(jié)底,剛剛提到的兩條技術(shù)路線,本質(zhì)仍是讓 AI 模擬人的操作;而真正的 AI 手機(jī),應(yīng)該去掉低效的圖形界面(GUI)中間層,讓 AI 直接調(diào)用 App 的功能組件。在這種理念下,第三條路線——MCP 路線誕生了。
不了解 AI 的朋友對(duì) MCP(Model Context Protocol,模型上下文協(xié)議)可能比較陌生。簡單來說,MCP 是一種標(biāo)準(zhǔn)化的能力協(xié)議,它能「對(duì)齊」App 與 App 之間的功能,讓 App 功能(組件)變成可被 AI 跨應(yīng)用調(diào)用的模塊。
![]()
圖片來源:modelcontextprotocol.io
舉個(gè)例子,如果我們把點(diǎn)餐功能封裝成「能力組件」,叫外賣時(shí) AI 就不再需要靠圖形或文字去理解商家菜單里的選項(xiàng),可以直接從組件后臺(tái)中找到「隆江豬腳飯」的選項(xiàng)并添加到購物車?yán)铮僬{(diào)用支付的 MCP 模塊直接完成支付。
「豆包路線」為什么更領(lǐng)先?
事實(shí)上,在雷科技看來,豆包選擇的「GUI-Agent + INJECT_EVENTS」方案,確實(shí)也是現(xiàn)階段 AI Agent 體驗(yàn)最好、最完善的技術(shù)路徑。不同于讀取無障礙標(biāo)簽的「路線一」,GUI-Agent 能充分發(fā)揮大模型在多模態(tài)方面的優(yōu)勢,吃到國內(nèi) AI 模型飛速迭代的技術(shù)紅利。
和 MCP 路線相比,「豆包路線」也不需要苦等第三方 App 的 MCP 支持:要知道 MCP 允許 AI 繞過 App 的圖形界面,意義等同于讓 App 放棄自己的流量入口。即使我們都知道 MCP 方案必然成為主流,但 GUI 到 MCP 的轉(zhuǎn)化注定是一個(gè)漫長的過程。可以肯定的是,大量 App 會(huì)在相當(dāng)長的一段時(shí)間內(nèi)維持傳統(tǒng)形態(tài),GUI-Agent 仍無法取代。
除此之外,豆包的 GUI-Agent 雖然被視為「過渡方案」,但它也提前為 MCP 時(shí)代打好地基。無論未來標(biāo)準(zhǔn)協(xié)議多么成熟,AI 想要可靠地完成任務(wù),都必須先學(xué)會(huì)在真實(shí) App 環(huán)境中運(yùn)行,而其中的操作路徑和數(shù)據(jù)傳遞算法只能從 GUI 操作里優(yōu)化出來,而不是從 API 文檔里學(xué)出來。
可以說,豆包通過 GUI-Agent 大規(guī)模積累的經(jīng)驗(yàn),必將成為豆包在 MCP 時(shí)代領(lǐng)先的關(guān)鍵。
MCP 才是 AI 手機(jī)的最優(yōu)解?
當(dāng)然了,就像剛剛提到的那樣,盡管現(xiàn)階段 MCP 生態(tài)的發(fā)展還處于初期階段,GUI-Agent 依舊是 AI 手機(jī)的主流方案;但就像觸屏手機(jī)用更豐富的交互方式取代按鍵手機(jī)、更通用的 USB-C 統(tǒng)一多種結(jié)構(gòu)那樣,可以肯定的是,體驗(yàn)更好、潛力更大的 MCP 方案,未來必然會(huì)取代 GUI-Agent 方案,成為 AI 時(shí)代的「默認(rèn)路線」。
而隨著「MCP 時(shí)代」的到來,AI 手機(jī)與 App 的線性關(guān)系也將發(fā)生改變:App 將直接向 AI 暴露結(jié)構(gòu)化的能力組件,系統(tǒng)也能對(duì)每一次調(diào)用進(jìn)行統(tǒng)一的權(quán)限管理,其安全性反而比現(xiàn)在的「屏幕捕捉+GUI Agent+替代點(diǎn)擊」還要高。
![]()
圖片來源:豆包手機(jī)助手
與此同時(shí),MCP 的開放性也讓跨 App AI 協(xié)作成為可能。現(xiàn)階段不同 App 之間的聯(lián)動(dòng)還離不開鏈接跳轉(zhuǎn)、剪貼板數(shù)據(jù)寄存等「歪門邪道」,而在 MCP 時(shí)代,AI 可以在同一上下文窗口中調(diào)用不同 App 的能力,實(shí)現(xiàn)真正意義的「流程化」。
12 月 4 日,羅永浩在微博指出「技術(shù)革命是誰都攔不住的」,同時(shí)也對(duì)字節(jié)在 GUI-Agent 路線邁出的這一步點(diǎn)贊:「AI 助手一定會(huì)遍地開花,我們的生活也會(huì)完全離不開它,將來的人們會(huì)記住這歷史性的一天。」
![]()
圖片來源:微博
就目前的情況來看,豆包手機(jī)助手已經(jīng)讓我們「預(yù)覽」了未來 AI 手機(jī)的樣子;而即將到來的 2026 年,AI 手機(jī)行業(yè)必然會(huì)加大在 GUI-Agent 賽道的投入,用實(shí)打?qū)嵉氖袌鲂枨笸苿?dòng) App 生態(tài)的 MCP 轉(zhuǎn)型進(jìn)程。
從這個(gè)角度來看,豆包手機(jī)助手,才是開啟 AI 手機(jī)黃金時(shí)代的鑰匙。
CES2026開幕在即!(1月6日-1月9日)
作為中國報(bào)道科技展會(huì)最悠久、最深入、最專業(yè)的新媒體,雷科技CES2026報(bào)道團(tuán)正在進(jìn)行緊張的前期籌備。屆時(shí)雷科技將派出史上最大規(guī)模的CES報(bào)道團(tuán),并由雷科技創(chuàng)始人兼總編輯羅超帶隊(duì),對(duì)CES2026進(jìn)行一線、專業(yè)和立體報(bào)道,敬請(qǐng)期待!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.