![]()
定焦One(dingjiaoone)原創
作者 | 王璐
編輯 | 魏佳
短短十來天,一臺僅僅停留在“技術預覽版”的豆包手機,攪動了整個AI手機賽道。
在首批工程機上線即被搶空、帶動中興股價漲停之后,這款手機又因“AI外掛”爭議、被多個超級APP限制登錄、高管連續發聲等事件數度反轉,迅速成為行業焦點。
嚴格來說,它并非一款正式意義上的“豆包手機”,更準確的說法是豆包與中興旗下努比亞聯合開發的AI手機“努比亞M153技術預覽版工程機”,豆包手機助手作為工具被深度嵌入到操作系統中。也正是因為這種深度接入方式,既讓它在真實應用場景中展現出超越傳統語音助手的連續操作能力,也引爆了后續的一系列爭議。
與爭議并行的是它在二手市場的價格不斷攀升,原價3499元一臺的手機一度被炒到3.6萬元,顯示出市場在質疑與興奮之間的撕裂情緒。
它的確功能強大,可以替網友在B站答題、在多鄰國打卡以及跨平臺比價下單,被網友稱贊“像人一樣玩手機”。羅永浩評價豆包手機具有開創性意義,周鴻祎預言將沖垮互聯網大廠護城河。但它問題也不少,頻繁“死機”、任務中斷以及隱私擔憂等吐槽,讓大量用戶保持觀望。
事實上,大眾對于豆包手機的關注已經遠超產品本身,它背后是兩條AI手機路線的正面碰撞:一條由傳統手機廠商為代表,以“軟硬一體”為特點的漸進式AI升級;另一條則是由大模型公司主導,通過系統級AI Agent重構移動操作系統的跳躍式路徑。豆包手機屬于后者,它撕開了行業潛在矛盾,試圖打破傳統APP封閉邊界,觸及互聯網平臺風控邏輯,也對主流手機廠商的生態優勢構成壓力。
爭議還在繼續,豆包手機會是曇花一現,還是推動整個AI手機加速重構?在新一輪競爭中,誰最有希望勝出?
手機廠商沒做出來的AI手機,豆包做出來了
“AI手機”的概念最早被大規模提及是在2023下半年,三星、谷歌、OPPO、vivo、小米、榮耀等主流手機廠商幾乎都在強調“接入大模型”“系統升級為AI OS”,仿佛不提AI就落伍了。
這些AI手機主要包含實時通話翻譯、生成會議紀要、AI修圖等基礎AI功能,以及一些有限的跨應用操作,比如完成點單任務、智能整理文件等。但在熱鬧背后,更像是給一些舊功能貼上新標簽,一度被評價為“概念有余、創新不足”。
豆包手機更加激進,它的跨應用操作不局限于點單,還支持線上購物、訂票、學習軟件打卡等眾多場景,并且它能在操作過程中自主處理彈窗、跳過廣告、規避支付陷阱。這種連續自主行為的復雜度高于行業現有能力。
不同AI手機在智能化程度上的差異,主要源于其技術技術路線的不同。Agent領域從業者宵逝向「定焦One」介紹,當前AI手機的實現路線主要分兩種。
在2025年前,行業普遍采用的是傳統方案,即手機廠商與APP開發者通過SDK接口(軟件開發工具包)對接,讓AI助手借助開放接口執行任務。但該方案高度依賴APP開放接口,一旦接口變更或未開放,AI將無法執行相應指令。早期語音助手如Siri、小愛同學均屬此類。
第二條路線是今年以來各大廠商采用的主要方案,基于GUI Agent(圖形用戶界面智能體),由大模型直接識別屏幕內容、理解界面結構并模擬人類手勢進行點擊、滑動和輸入。也就是說,大模型不再需要“調用SDK接口”,而是轉為“直接識別屏幕并操作”,像用戶一樣操作手機。但這類方案通常需要獲取手機系統級權限,典型代表是豆包手機。
![]()
豆包手機在自主操作背單詞工具(視頻為5倍速) 受訪者提供
需要強調的是,GUI Agent并非全新技術,部分AI手機早已使用。比如榮耀MagicOS 9.0的YOYO智能體,通過此路線便可自主完成從打開外賣APP到結算的買咖啡流程。
因此,有從業者認為,豆包手機的技術并未實現突破性創新。網絡安全專家曲子龍向「定焦One」指出,豆包手機的技術原理并不復雜,是基于視覺語言模型的方案,通過讀取屏幕的權限,利用視覺語言模型識別屏幕內容,再進行指令操作。該方案在行業中已有實踐。
不過,盡管技術路徑相似,豆包手機在通用任務能力上表現更為突出,顯示出一定技術實力。
宵逝在使用豆包手機的過程中發現,它能主動進行信息檢索與召回、調用在訓練階段從未見過的的陌生APP,這是其他AI手機難以做到的。
比如,在面對“會議延遲是否影響接孩子”的復雜任務時,豆包可定位公司與學校位置,通過地圖類應用查詢路程時間,從而給出判斷,在這一過程中,用戶并沒有指定APP,但豆包能自主分析并規劃用何種APP操作任務。
相比之下,多數AI手機仍局限于預設場景。以榮耀YOYO為例,它可以完成點咖啡,但面對陌生任務時,會提示無法執行。
簡而言之,豆包手機試圖構建一個不依賴預設場景的通用智能體,其能力不僅限于執行固定流程的任務(比如代點咖啡),還可應對開放目標(比如規劃一次預算內的旅行),這要求它能自主進入不同APP進行瀏覽、比價與決策。而當前大多數手機廠商的AI功能仍圍繞有限場景的自動化展開。
因此,盡管同樣基于GUI Agent路線,豆包手機在對面對復雜、開放任務的理解與執行能力時,更接近“真正的智能”,這正是它引發行業震動的根本原因。
大廠“封殺”,AI手機的仗要打起來了
豆包手機的路線展示了技術的可能性,也讓沖突走到臺前。它的“跨應用連續操作”能力,本質上是在突破現有移動生態的隱性邊界,于是很快撞上了互聯網巨頭的防線。如今,微信、支付寶、淘寶等APP均對其自動化操作采取了技術性“封堵”,有的可登錄但不可通過AI操作,有的直接限制登錄。
沖突的核心在于,雙方對操作權限的判定標準存在差異。
站在APP端的立場,其風控機制會持續監測用戶行為特征,一旦察覺非人為操作,便會啟動禁止登錄的保護機制。微信本次限制豆包AI操作,正是出于這一原因。
曲子龍表示,豆包手機助手調用微信執行任務時,利用的INJECT_EVENTS權限(Android上允許應用向系統模擬用戶輸入事件的權限),被微信識別到這是一個模擬用戶輸入的事件,懷疑這不是一個正常操作。檢測到異常后,微信將賬號的登錄狀態回收,讓用戶重新登錄。
他表示,在剛買來的努比亞M153上登錄微信,本身就是在“非常用設備”下進行敏感操作。微信根據賬號信譽值以及敏感操作的風險值判斷,無論是注銷登錄狀態亦或者凍結賬戶,都是一個很正常的風控手段。
但事件的另一方,抖音高管曾公開解釋,此類操作本質上是設備持有者授權AI助手代為執行任務,而非外部攻擊。
雙方的界定差異,正是此次爭議的根源。換言之,現有的APP應用強調“真人操作”,而系統級AI助手強調“用戶授權下的人機協同”。這種分歧不僅是一個技術判定問題,還可能帶來深遠影響。它將決定著未來AI手機能否真正具備“系統級智能”,還是會被迫退回到輕量工具。
對于所有試圖重新定義AI手機操作系統的玩家而言,這是第一道難題。除權限沖突之外,基于GUI Agent的技術路徑,用戶體驗層也面臨三項核心挑戰:隱私安全、結果“幻覺”與執行效率。
首先,隱私安全是用戶最關心的問題。核心疑慮在于,豆包手機在處理任務時,手機屏幕上的用戶信息是否被持續上傳至云端?是否存在泄露風險?
![]()
圖源 / 豆包AI官方微博截圖
宵逝指出,AI手機在執行任務時,通常需將當前頁面狀態等必要信息上傳至云端進行推理,但一般不會全程、全量上傳屏幕數據。主要原因在于全部上傳成本太高,大模型的上下文長度與云端計算開銷限制了全程錄屏分析的模式。
對于是否會“24小時窺屏”,宵逝通過手機功耗表現進行了側面驗證。
“如果視覺語言模型持續進行全屏分析,手機將迅速發燙、耗電劇增。”但他在使用過程中發現,實際情況并非如此,“在執行任務時,豆包手機會發熱,但待機狀態時基本正常。”因此他更傾向于“按需觸發”,并對特定界面(如懸浮窗)設有訪問過濾。
至于當豆包手機遭受外部攻擊時,用戶是否會面臨賬號盜用風險,宵逝覺得無需過度緊張。
“AI的每次操作實質是工具調用,開發者通常會在工具層設置風控,保證安全性。比如,在最終支付環節會中斷自動流程,彈窗交由用戶手動確認。雖然AI的決策或許不可全信,但執行支付等操作的授權代碼是明確且受控的。”不過,他也補充,相較本地推理占比更高的傳統AI手機方案,依賴云端推理的路徑,安全性相對更低。
但這并不是一項無法解決的問題,曲子龍認為,平衡隱私安全的關鍵在于終端芯片的算力。“當手機芯片算力足夠大,所有任務都在本地執行,隱私擔憂將得到極大緩解。”
其次是“幻覺”問題,即AI錯誤理解用戶意圖或執行錯誤操作。
比如,有用戶在使用豆包手機時發現,AI未能按照自身需求篩選出“熱度數據最高”的歌曲。宵逝也有相同感受,他讓豆包購買一支普通牙刷,豆包卻將此前加購的電動牙刷一并勾選,導致支付環節的金額多了100元。
這類問題短期難以徹底解決,行業共識是,在現有技術條件下,追求大模型給到100%的準確率并不現實。
最后是執行效率。網友們普遍反映,豆包手機在完成跨應用比價、下單的復雜任務時,需要耗時數分鐘、遠慢于人工操作。
宵逝解釋,這主要是因為AI需等待界面元素完全加載穩定后,才能進行識別與下一步操作,而人類用戶可以憑經驗進行預判和快速交互。
此外,由于主流應用的技術限制,豆包手機在許多高頻場景中無法工作,這也極大地限制了其實際可用范圍。
豆包手機所面臨的這場“封殺”,不是單一產品的功能博弈,而是新舊規則的碰撞。下一步是行業對抗,還是規則重寫,仍懸而未決。
AI手機會成為誰的機會?
盡管當前AI手機仍面臨不少挑戰,但可以肯定的是,這一賽道正成為科技公司爭奪AI時代“超級入口”的核心戰場。
所謂的“超級入口”,關系著企業在下一輪產業格局中的地位。在傳統互聯網時代,入口由瀏覽器、搜索引擎與超級APP主導;在大模型時代,入口將從“用戶主動點開”轉向讓智能體自動代辦,用戶不再逐個打開應用,只用向智能體提出需求,由智能體實現跨應用操作。誰掌握入口,誰就掌握著用戶注意力、數據流動的主導權。新的入口一旦形成,后來者將很難再獲得主導權。
過去幾年,AI硬件不斷出現。例如,AI眼鏡或AI耳機在便攜和聽覺交互上見長,智能汽車提供了獨特的空間與算力載體,通用機器人代表著更遠的未來,但無論是處理復雜任務、使用場景,還是技術成熟度,這些設備都存在局限,難以承擔起入口的角色。
相比之下,手機擁有龐大的用戶基數、極高的日常使用頻次以及成熟的軟硬件生態,具備獨特的綜合優勢,成為AI時代最現實的超級入口載體。
盡管戰略地位明確,但當前市場上大多數“AI手機”并未帶來顛覆性體驗,整體仍處于探索期。
僅靠視覺語言模型實時解析并可操作任意第三方App的GUI Agent路線,尚達不到消費級大規模落地的成熟度,主流廠商對此態度謹慎。豆包手機通過融合多模態大模型與系統級權限的技術路徑,又面臨技術創新與平臺規則、生態兼容和安全邊界的沖突。
但豆包手機的出現是一個標志,多位受訪者認為,它不僅提升了討論熱度,也迫使各大科技公司重新審視AI手機布局。從各家的能力儲備來看,可以劃分成幾個梯隊。
![]()
圖源 / unsplash
第一梯隊是垂直整合能力極強的系統級廠商,主要包括蘋果、谷歌、華為、三星。
這四家的核心優勢在于,控制著從芯片、操作系統到應用分發平臺的完整全棧架構,有能力通過系統更新和開發規范,定義AI與應用交互的新標準,構建一個可控、安全且可持續的底層框架。但較大的組織體量和對生態安全的謹慎態度也使得它們推進步伐相對穩健,短期內不太可能走到最前沿。
第二梯隊是擁有大模型與服務生態的軟實力企業,比如微軟、OpenAI、字節跳動等。
這一類公司在大模型能力和AI算法層面具備核心競爭力,其戰略很可能是“以軟賦硬”,通過和硬件廠商合作的方式,將自身模型和服務集成到各類設備中,而不是自己做手機。但一方面需要找到合適的合作伙伴,另一方面需要解決操作權限的問題。
第三梯隊是具備規模優勢與硬件經驗的終端制造商,包括小米、OPPO、vivo、榮耀等。
它們在硬件設計、供應鏈管理和銷售渠道上具備優勢,最重要的是,對市場需求反應很快,可以快速將AI功能下沉到中端甚至入門級機型,吸引龐大的老用戶群體,讓AI手機快速普及。
從整個格局看,無論最終勝出者是誰,都必須在開放生態與安全控制之間尋找到新的平衡。這場博弈還遠沒有停止,手機廠商會繼續加碼,AI手機的演進速度也將進一步加快。
*題圖來源于豆包AI官方微博截圖。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.