文 | 山上,作者 | 薛星星,編輯 | 蔣澆
手機廠商們在發布會上讓手機助手點上幾百份咖啡外賣、發微信紅包已經不是新鮮事兒了,但字節跳動上周發布的“豆包手機助手”還是在互聯網上掀起了不小的波瀾。部分原因在于豆包對外展現的模型理解能力更強,但更多或許還是來自于市場對于字節爭奪入口的恐懼。
考慮到首發機型的備貨量和技術的完善度,所謂的“豆包手機”暫時不會對移動互聯網生態產生實質性的影響。搭載了豆包手機助手的深度定制機中興努比亞 M153 限量發售,售價 3499 元,定位中端。外界傳言其首發備貨量約為 3 萬臺,且不會補貨。
這款手機并不是一個面向普通消費者的成熟硬件產品。豆包手機助手團隊特意強調,該機型“只是一款方便大家體驗豆包手機助手使用的工程樣機”,中興商城頁面也顯示,“僅面向需要體驗豆包手機助手的行業人士,不承諾成熟產品的功能完善度,普通消費者請務必謹慎選擇”。
![]()
中興商城頁面
上周外界對于豆包手機助手的討論更多圍繞各大互聯網公司相繼“封禁”豆包展開。動作最快的是字節跳動的直接競對騰訊,使用豆包手機助手會觸發微信的風控策略,導致用戶微信賬號強制退出無法登錄。
緊接著,包括各大銀行、支付寶乃至淘寶、拼多多等電商應用、王者榮耀等手游都相繼阻止用戶使用豆包手機助手進行操作。豆包于上周五對外聲明,表示將調整并限制豆包手機助手的使用范圍,包括但不限于限制刷分/刷激勵等應用場景、金融類應用、游戲類使用場景等。
看熱鬧不嫌事兒大的科技媒體們繼續發揮他們渲染情緒的祖傳藝能,對外強調又一輪互聯網生態入口爭奪大戰開始。有了大模型的加持之后,大家的討論明顯都“深入”一些,動不動就要強調本質問題,上升到戰略、生態、下一代交互的地位上。這樣的論斷過去在智能音箱、小程序乃至區塊鏈等都屢見不鮮,不免有些厭煩,讓人想起巴黎報紙的拿破侖笑話。
拋去這些宏大敘事的論調,各大互聯網公司當前封禁豆包手機助手的直接原因或許只有一條:禁止外掛代替用戶操作,無論它是否由 AI 還是腳本操作。微信、支付寶乃至銀行等涉及用戶隱私和金融風險的應用更是嚴厲禁止。過去,哪怕只是一個簡單幫助用戶去除應用開屏廣告的“李跳跳”,都收到過互聯網大廠的律師函,不得不無限期暫停更新。
豆包團隊在限制豆包手機助手的聲明中同時強調,他們正積極尋求與各應用廠商的深度溝通,希望推動形成更加清晰、可預期的規則,“避免用一刀切的方式否定用戶合理使用 AI 的權利。”
這話略顯偏頗。好似豆包手機助手才是幫助用戶的屠龍少年,而其它互聯網廠商則是橫亙 AI 未來面前的惡龍形象。姑且不說抖音會不會禁止其他 AI 手機助手獲取并操作用戶的聊天信息、上傳視頻乃至抖音商城、錢包等頁面,關鍵在于當前豆包手機助手的 GUI 交互手段,很難說就是未來手機 AI 的發展方向。
已經有不少媒體指出,部分手機或大模型廠商早在豆包之前就推出過類似的 AI 手機助手功能,比如榮耀的 YOYO 助手或者智譜的 AutoGLM。它們的技術原理也都差不多,通過獲取系統底層權限,AI 讀取手機屏幕信息并代替用戶模擬點擊。只是豆包展現的模型理解能力更強、交互也更流暢。
這樣的做的好處是可以不需要再一對一地與應用廠商溝通,不用再費心建立生態,只靠自家的技術優化就能打通當前的移動互聯網應用。過去 AI 廠商在瀏覽器層面推出的 AI Agent 功能與此類似,都是代替用戶模擬操作網絡頁面。
但風險在于,手機是一個比瀏覽器擁有隱私更多、風險也更大的場景。一個簡單的例證,瀏覽器內的 Agent 不需要額外獲取更多系統權限,但類似于豆包手機助手則需要獲取安卓的 INJECT_EVENTS 權限。
INJECT_EVENTS 權限是安卓系統的底層權限,可以直接向設備發送原始信號,后臺模擬用戶點擊。它早在安卓系統誕生之初就已經存在,此前更多被手機廠商用作新機上市前的測試階段。
開放這一權限,意味著你完全讓渡了手機的控制權,風險極大,因此它只向系統級應用開放,第三方應用無法獲取。蘋果也沒有為 iOS 系統開放類似權限。
![]()
豆包手機助手聲明
更關鍵的是,無論你是否打開手機,理論上被授予這一權限的應用都可以在后臺操作手機。比如豆包團隊在宣傳片中展示的助手直接打開特斯拉前備箱、查詢播客節目、預定餐廳等功能,人物只通過耳機下達指令,而無需拿出手機。
目前,手機行業中也只有國內安卓廠商在嘗試類似 GUI Agent 的道路,Google、蘋果都沒有在自家手機中使用類似的技術路線。Google 今年發布的 Pixel 10 系列雖然也強調 AI 的系統級能力,但更多是通過 API 接入和端側 AI 來打通用戶信息和自家應用生態。縱觀過去 Google 的手機 AI 路線,也從未使用系統的 INJECT_EVENTS 權限。
事實上,Google 在今年發布的 Android 16 中已經在嘗試引入一個名為 App Functions 的新接口,允許應用將自己的關鍵功能比如訂餐、下單、發消息等能力提供給系統,系統助手可以調用這些功能代替用戶操作,實現跨應用交互。
蘋果及華為也都在 iOS 系統和鴻蒙系統內加入了類似能力,iOS 內稱作 App Intents,鴻蒙系統內則稱作意圖框架。比如華為就在鴻蒙開發者文檔中介紹,銀行類應用接入意圖框架服務之后,用戶可以直接通過小藝發起轉賬交易。
![]()
![]()
華為鴻蒙開發者文檔介紹意圖框架服務
換句話說,和 GUI Agent 需要獲取系統底層權限,識別屏幕信息并代替用戶模擬點擊等相比,API Agent 的接入方式才更為安全也更可控,隱私泄露風險也更小。
OpenAI 今年開始嘗試通過 ChatGPT 打通第三方應用生態,同樣是通過 MCP 等協議來接入外部應用。即便在介紹 ChatGPT Atlas 瀏覽器的代理功能時,OpenAI 也格外強調其安全風險,“用戶仍應保持警惕并監控 ChatGPT 代理的操作行為。”
更直接點說,GUI Agent 的路線更像是當前 AI 生態尚不完善時的折衷產物。AI 與應用的交互完全可以靠代碼或 API 的方式交流,現在則是模仿人來讀取屏幕、模擬點擊。當下通過獲取手機最高權限來實現 AI 模擬交互,幾乎可以用“高射炮打蚊子”來形容。
當然,我們并不是在苛責或者批評豆包手機助手。國內的 AI 應用探索一直跑在全球前列,豆包所展現的一些系統級 AI 能力確實也帶給市場不少驚喜。
但它是建立在完全讓渡用戶隱私和系統操作的基礎上——比如要讀取你的微信聊天記錄和聯系人信息,目的僅僅只是為了搞清楚你昨天和朋友定的餐廳在哪里,又或者只是為了比較一下外賣的價格。就像豆包手機團隊發布的那條宣傳視頻下,排名第一的評論說,“真的沒人在乎個人信息安全嗎?”
![]()
豆包手機助手視頻號的評論
暫且忘掉豆包團隊在聲明中強調的對個人隱私嚴格保護、所有權限都是在用戶授權下才獲取的說法。我們并不是說豆包不注重隱私保護,更多只是強調其風險問題。科技公司們總有各式各樣的法務條款來規避風險,而不用承擔責任。
監管往往滯后于技術的發展。移動互聯網時代狂奔十多年,蘋果和安卓廠商們才在 2020 年前后加入了更多對應用調用系統權限的限制和披露。這時,人們才驚訝應用們會如此頻繁地調用地理位置、讀取剪切板、獲取通訊錄、相冊等敏感信息,目的可能僅僅只是為了幾個微不足道的小功能。一些應用甚至會在幾分鐘內發起上千次權限調用申請,國內外大廠無一幸免。
過去幾天,也有不少手機廠商人士就豆包手機助手對外發聲,或附和表態或解釋技術原理。手機廠商們和豆包面臨的困境是類似的,它們很難在短時間內就構建起一個 AI 與應用交互的生態,也無法打通國內封閉割裂的移動互聯網壁壘,因而只能通過粗暴的方式來強行推進 AI 的手機變革。
阿里集團 CEO 吳泳銘之前說,人們對新技術革命,往往對短期高估,又對長期低估,但新技術革命會在人們的懷疑中成長,讓很多人在遲疑中錯過。
人類對于新技術的適應能力或許也遠超自身的想象。現在已經沒有人出門再帶現金了,也很少見到人在路邊招手揚車。無論如何,AI 對于手機的改造已經開始,曾經封閉的移動互聯網生態也必須要正視 AI 的介入。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.