![]()
定焦One(dingjiaoone)原創
作者 | 金玙璠
編輯 | 阮梅
最近科技圈的兩場“AI秀”先后刷屏。
在大洋彼岸,當地時間1月12日,蘋果和谷歌宣布合作,要給Siri用上谷歌的Gemini。但蘋果的做法,不是直接讓Gemini操作手機上的App,而是用戶說什么,Siri先理解意圖,然后去調用相應的應用。換句話說,AI只是個“調度員”。這套操作,很蘋果。
另一邊,國內的情況就熱鬧得多。字節跳動的豆包AI手機一度刷屏,AI可以幫你打車、購物、訂票,就像一個真正的“萬能助理”。這套打法,很互聯網。
你看,同樣是AI手機,實現的方式完全不同。這背后,其實是兩條技術路線:
一條路線,是讓AI和App學會“對話”,通過標準接口直接調用應用能力,被稱為A2A(Agent-to-Agent)。這條路需要所有人坐下來一起制定規則,走得慢,但更穩妥。
另一條路線,是給AI一把“萬能鑰匙”,通過系統權限“讀屏”并模擬操作APP,被稱為GUI(圖形用戶界面)。這條路簡單直接,走得快,但可能存在風險。
這背后不只是技術選擇,本質上,是不同公司基于自身利益與生態位,對未來主導權的一次押注。誰的模式能贏得用戶,很可能將決定:下一個十年,我們如何與手中的設備共處。
兩種解法,兩種邏輯
要看懂這場牌局,我們先得看清這兩條路線背后的邏輯。
GUI路線,主打一個“快”字。
它的實現方式,最初是AI助手借助安卓系統中一個名為“無障礙服務”的功能。這項權限最初是為有視力障礙的人士設計的,好讓他們能通過語音指令來操作手機。現在,AI通過這項權限可以“讀懂”屏幕上的文字和圖標,然后模擬人的手指去點擊、滑動,從而操作各種App。之后不久,市場上出現了比調用無障礙權限更“領先”的路線,也就是AI助手拿到了手機廠商給自己的系統簽名權限,從而通過進程注入,更絲滑、無感地模擬操作。
這樣做的好處顯而易見——它繞開了所有App廠商,直接把AI能力覆蓋到了現有的應用生態中。對于急于在AI浪潮中搶占身位的廠商來說,這是最快的驗證路徑。
“當用戶習慣了通過一個AI助手來操作所有App時,這個助手就成了新的流量入口,這背后的商業價值,相當有吸引力。”關注互聯網公司的投資人林亮表示。
不過,對于用戶來說,體驗現階段的GUI可能“時靈時不靈”。
“GUI很依賴應用界面的穩定性”,應用開發者陳剛表示,“如果App更新了界面設計,比如一個按鈕的位置變了,都可能讓AI‘點錯’位置,整個任務流程就會卡住。”
陳剛指出,當任務鏈路變長時,這種不穩定性會被放大。有數據顯示,一個包含5個步驟的操作,即便每一步的成功率都高達90%,整個任務的最終成功率也可能驟降至59%。
![]()
圖源 / pexels
除了體驗上的不確定性,很多用戶擔心的是安全和隱私風險。GUI模式下,AI需要通過“讀屏”來理解屏幕內容,進而決定下一步操作,就意味著,它需要實時獲取屏幕信息。盡管廠商們承諾數據會加密或不上傳,但用戶心中難免會有疑慮:用戶的數據在什么情況下被收集、如何被使用、誰來負責?
A2A則是完全不同的思路。它不讓AI“看”屏幕,而是為AI和各個應用建立一套通用的“對話語言”——也就是標準的API接口。
這聽起來有點抽象,你可以想象這樣的場景:你對手機說“幫我打車去機場”,系統Agent理解后,直接告訴相應的Agent:“用戶要去機場,請提供打車服務。”出行App的Agent收到請求后,在自己的權限范圍內完成任務。
A2A的核心,是“合作”。這一路線中有個關鍵設計叫“雙重授權”:同時獲得用戶和應用方的授權。
這樣一來,權責變得清晰了。用戶可以對不同的App設置不同的權限等級。比如,允許AI讀取外賣App來比價,但禁止讀取銀行App;對于轉賬這樣的高風險操作,每次執行都需要你的額外確認。由于數據流動是通過明確的接口進行的,是有據可查的,即便出了問題也可以追溯。
那為什么不是所有廠商都選擇A2A呢?
因為協調成本很高。A2A需要操作系統廠商、應用開發者共同推進一套標準化的協議。沒有足夠多的應用支持,A2A的價值就顯現不出來;沒有明確的價值,開發者就缺乏適配的動力。
所以,A2A路線注定是一場“持久戰”,它“慢”在生態共識的達成與基礎設施的建設。
現在,兩條路線的邏輯就清楚了:GUI雖有一定風險但高效,能讓廠商用最小代價快速驗證AI手機的可能性。A2A穩妥但緩慢,需要更多協調和投入,不過一旦成功,就能建立一套更安全的體系。
有人可能會問,GUI路線就不能通過技術手段實現分級授權嗎?理論上可以,但這樣做也就失去了相對于A2A的“快速部署”優勢,同時還要承受更高的技術成本。
目前行業內相對公認的路徑是,GUI探路尚可,因為它會把智能體的便利和風險都充分呈現出來,最終還是要看A2A,因為只有滿足了安全和便利兩個條件,才能走得遠。如果跳出中國市場,全球的科技巨頭們是如何選擇的呢?
不同路線背后,巨頭們的算盤
在手機端,海外巨頭幾乎都選了A2A,推動API(接口)集成。
蘋果最直接。它升級了“App Intents”框架,要求所有想接入AI功能的應用,都必須按照蘋果制定的標準提供API接口。
谷歌的路更復雜。它一邊推“AppFunctions API”來統一智能體交互標準,一邊大力推廣各類應用適配,這是個緩慢的過程。
微軟自研了“AutoGen”這樣的多智能體對話框架,探索不同AI智能體怎樣更好地協同。
OpenAI和Anthropic雖然不直接做手機,但它們推動的“函數調用”和“工具使用”功能,實際上就是A2A的技術前身。根據Anthropic公布的數據,從2025年3月的2000多個活躍MCP服務,到12月已經超過1萬個——這個增速相當驚人。
![]()
為什么無論是蘋果、谷歌這樣的操作系統霸主,還是微軟、OpenAI這樣的AI領頭羊,都選了緩慢的接口路線?
因為它們是現有秩序的建立者和最大受益者。
蘋果、谷歌的核心利益是維護平臺、穩定開發者。未經三方授權就簡單使用GUI,這種“外掛式”的路線,本質上是在挑戰它們的統治地位。所以它們必然會選A2A這種“可控”的方案,把AI能力牢牢掌握在自己手中,作為強化生態控制力的新工具。
微軟手握Windows和Office兩大王牌,其AI戰略的核心是提升生產力,服務企業客戶。對于這些客戶來說,安全和穩定是第一需求,無法接受GUI的不確定性和安全風險。
OpenAI作為AI技術的“軍火商”,目標是讓自己的模型被盡可能多的應用“調用”。所以它必須提供穩定、可靠的API接口,而不是無法確保結果的GUI工具。
海外巨頭是不是完全放棄GUI了?并非如此。
谷歌的Gemini和微軟的Copilot,在手機上推出了“屏幕共享”功能——讓用戶可以把屏幕分享給AI,AI可以“看”并回答問題,但本身不會去操作。
海外巨頭的GUI嘗試,主要在PC端,而且,嚴格限制在受控環境(如瀏覽器、沙盒、虛擬機)內。
OpenAI把具備GUI操作能力的Agent限定在Atlas瀏覽器內,明確禁止它運行代碼、下載文件或訪問本地應用。Anthropic在2024年底就發布了Computer Use API,但相關功能至今僅供開發者在虛擬環境中測試。
微軟的做法最具代表性。在其Recall功能因高頻截屏引發隱私爭議后,它直接把“看”和“做”兩個動作拆分了——Copilot Vision只能“看”用戶共享的應用并提供建議,不能操作;有操作能力的Copilot Actions必須在單獨的沙盒桌面中進行。
所以,海外巨頭出于“維護現有秩序”的考慮,堅定地走A2A路線,GUI嘗試只停留在“測試版”,并未向普通用戶大規模推廣。
相比之下,國內市場格局更復雜,巨頭中既有“挑戰者”也有“守成者”,選擇也因此更多樣。
字節跳動走的是高權限GUI路線。它通過豆包大模型與中興努比亞深度合作,推出集成系統級AI助手的“AI手機”,希望繞開現有的生態壁壘,爭奪下一代流量入口。
阿里、華為、OPPO,都布局了A2A路線。
阿里的動作很直接,就是通過自建的、可控的API體系,將“通義千問”這個超級大腦,深度集成到淘寶、支付寶、高德等核心業務中。
華為則在2025年底發布的HarmonyOS 6中,通過“意圖框架”,實現了“小藝”智能體與十余款鴻蒙原生應用的A2A協作。
OPPO也聯合了支付寶等頭部應用,共同探索A2A的行業標準。
但這些看似相同的選擇背后,是各自的商業考量。
對阿里來說,這套打法“攻守兼備”。一方面,作為中國頭部電商平臺,核心利益是用可控的API保護龐大的交易生態。但另一方面,它又不止于防守,而是通過通義千問打造一個入口,讓用戶在阿里生態內完成更多交易和服務。
華為和OPPO當然不想只做硬件制造商,容易被“管道化”,所以,在A2A路線之上,它們還在走一條以自家操作系統或AI大模型為核心的“混合生態”的路線。在這套體系里,既有標準的API調用,也有更底層的系統級智能體,最終目的都是為了掌握生態主導權,從一個“設備提供商”,升級為未來生態的“規則制定者”之一。
簡言之,國內外廠商多數都選了A2A。只是區別在于,海外巨頭用它來強化現有控制;國內廠商則用它來爭取話語權,一邊參與A2A的標準制定,一邊通過自身的OS、大模型或生態優勢,建立以自己為核心的混合生態。
為什么主流廠商更傾向A2A?
選擇背后,是不同玩家在牌桌上的位置使然。不過,從這些主流廠商的選擇中,我們可以得出一個結論:GUI路線雖然能快速驗證AI手機的可能性,但A2A正獲得越來越多主流廠商的青睞。
是因為A2A更安全、更穩定嗎?不全是。它之所以被看作是未來,可以從技術演進、監管合規和商業成本三個維度來看。
從技術角度看,A2A更符合AI分工協作的本質。
GUI路線要求大模型同時承擔“感知屏幕(眼)、規劃任務(腦)、模擬操作(手)”的工作,負擔重、效率低且易出錯。A2A路線,則是讓AI回歸到它最擅長的“大腦”角色,專注于理解與任務調度,具體的執行交給各垂直領域優化的應用智能體。這種“各司其職”的模式,不僅更高效可靠,也為未來更復雜的智能體協作打下了基礎。
從監管角度看,A2A是更安全、更合規的選擇。
GUI的“讀屏”行為在全球范圍內都面臨越來越嚴格的隱私監管。2025年12月,美國德州起訴了包括三星在內的多家智能電視制造商,指控它們通過高頻截屏非法收集用戶數據。這為所有采用類似技術的廠商敲響了警鐘。
![]()
圖源 / pexels
而A2A由于數據流動通過明確的接口進行,并且有“雙重授權”機制保障,為廠商建立了一道合規“防火墻”。
最后,也是最關鍵的,從商業成本角度看,A2A是更經濟的選擇。GUI方案看似“快”,但長期運營成本高。
陳剛做了個類比:
GUI模式就像雇了一個需要24小時盯著監控屏幕的保安,要不斷地看、不斷地分析圖像。這消耗的是大量的“腦力”(云端計算資源)。
A2A模式是建立了一個高效的內部通訊系統。當需要某個部門配合時,發送一條結構化的簡單指令即可。這消耗的只是“通訊費”(API調用費用)。
對于手機廠商來說,如果幾億用戶每天都在用AI讀屏,算力與帶寬開支將是一筆巨大的開支。這種商業模式,在規模化商用的前景下,幾乎是不可持續的。
所以無論從技術、監管還是商業成本來看,A2A都是更優的選擇。更重要的是,一旦這個生態建立起來,它將帶來全新的商業機會。這也是最讓行業人士興奮的原因。
首先,協議層與中間件將成為核心。PC時代有Windows,移動互聯網時代有iOS和安卓。在AI時代,A2A、MCP等協議標準,就像是新時代的“操作系統”和“開發語言”。誰能掌握標準,誰就可能成為下一個平臺級的巨頭。
其次,“智能體工廠”與垂直Agent服務商將迎來爆發。基于標準協議,為金融、醫療、物流等特定行業開發專屬智能體,將成為一個巨大的市場。未來,可能會有專門的“智能體商店”,你可以像下載App一樣,為你的手機雇傭一個“私人理財顧問”或“專屬旅行規劃師”。這為無數中小開發者,提供了全新的創業機會。
最后,現有公司也將在新生態中重新找到自己的位置。云廠商將成為智能體的“訓練場”,手機廠商則成為智能體的承載終端。它們都將獲得新的增長。
對于中國的科技公司而言,這是一個在底層協議和基礎設施上,與全球巨頭同臺競技的絕佳機會。
結語
聊了這么多技術和商業,我們不妨回到一個最根本的問題:AI,到底應該如何服務于人?
AI手機的發展,正從功能炫技的“概念期”,進入生態構建期。GUI和A2A,從不同維度給出了各自的回答。
GUI用一種最直觀的方式,完成了初步的市場啟蒙。它讓我們提前看到了AI手機未來的樣子——一個能聽懂、會操作的伙伴。這種“快”的優勢,幫助廠商們快速驗證了AI手機的可能性。但安全性存疑、經濟性不高,決定了它更可能是一種過渡方案。
A2A路線盡管起步緩慢、協調艱難,但它在做一件更基礎的事——為AI和應用之間建立一套清晰的“規則”。這些規則看起來很復雜,但本質上是在回答一個問題:AI應該在哪些地方有權力,在哪些地方沒有。一旦這套規則被廣泛接受和應用,就能形成一個更穩定、更可控的生態。這必然是一場持久戰。
這場路線之爭,往深了想,其實是我們希望與機器建立何種關系的思考。
AI手機的未來,或許并不在于讓手機變得無所不能,去替代我們做所有事。而在于,它能否成為一個更聰明的“副駕駛”,在我們做決策時,提供更精準的信息、更周全的建議,最終把選擇權交還給我們自己。說到底,技術終究是為人服務的。
*題圖來源于pexels。應受訪者要求,文中陳剛、林亮為化名。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.