大家好,我是剛哥
最近,大家都被豆包手機的“AI智能助手”引發的討論刷屏了。淘寶、微信、銀行APP也紛紛開始“封殺”豆包手機。
說實話我一開始也沒太當回事情,心想只要用戶授權,安全的使用數據就行了,這些大廠就是怕擔心數據和用戶被人搶了唄。
直到豆包手機發出了“辟謠”公告,我覺得這件事情不簡單。他是一直在強調用戶授權,數據安全是一點都沒談吶。
![]()
豆包辟謠(來源網絡)
當然,我完全相信,借100個膽子給豆包手機也不敢拿用戶隱私數據和資金安全來開玩笑。
那這次豆包為什么會惹了眾怒呢?我們就從科技的角度來給大家拆解下,豆包手機這次事件到底是怎么回事,以及探討下GUI Agent、AI手機未來應該是什么樣的。
01 豆包到底干了啥
這次豆包手機使用了GUI Agent的技術,并且與中興通訊聯合推出的一款OEM工程手機。所謂的GUI Agent,就是AI代理可以通過“感知、規劃、執行”來代替用戶完成手機APP的操作處理。
1.GUI Agent原理
![]()
GUI Agent實現原理(來源網絡)
這里的感知、規劃和執行,就像人的眼睛、大腦和手一樣讓AI來幫你操作手機。因此,需要手機操作系統和大模型來提供相應的軟硬件功能。
感知(看):相當于AI的眼睛,它需要操作系統提供讀取屏幕的功能,用戶授權后就能使用了。
規劃(想):相當于AI的大腦,讀取的屏幕界面信息傳遞給大模型來進行處理,如果是沒有本地模型就需要傳到云端大模型處理。
執行(做):相當于AI的手,根據大模型發送的執行指令來模擬人的操作。這里涉及到對用戶APP進行操作。為了避免黑客遠程操控,因此屬于級別最高的“系統權限”,只有手機廠商定制才能進行使用。
這次豆包的GUI Agent又是如何實現的呢,他是怎么實現“看、想、做”的呢?
![]()
豆包手機系統架構圖
豆包和主流的GUI Agent采用的方式類似,只不過這次為了獲得系統權限他自己找中興通訊合作,使用nubia M153手機做了貼牌的工程樣機。
1)GUI Agent接管系統:
豆包通過用戶授權開通了APP的接管。通過接收用戶的指令就能對這些APP進行自動操作。
2)感知(無障礙輔助):
無障礙輔助,這個權限設計的初衷是幫助殘障人士使用設備而設計的。他需要開發者在APP內配置,然后通過用戶授權就能獲取。
在豆包手機的設計中,這個功能被用來讀取手機進行屏幕。然后通過安卓的“窗口管理器”來解析界面元素。
這里存在的爭議,在傳給大模型之前,是否對安全鍵盤和敏感的支付、賬戶、相冊、視頻等界面在本地過濾處理,過濾到什么級別,復雜的界面如何處理等問題?
3)規劃(豆包大模型):
整個思考過程自然是使用豆包的大模型來處理,他會根據用戶語音指令和獲取的界面要素進行規劃和決策,然后給出下一步操作的指令。
這里就會涉及到隱私數據的處理了,最合規的做法就是使用本地大模型來處理,這樣的話用戶隱私數據就完全在手機內部封閉了。
根據豆包公開的產品,他有一款UI-TRAS的本地大模型,但是公開資料沒有說明這個模型是完全本地化,還是“本地+云端”協同。
如果與云端協同,就需要在上傳云端前,過濾掉用戶的隱私數據,通過安全的加密鏈路與云端大模型進行交互。
這里存在的爭議,是否有云端協同,協同的的數據有哪些?是否在云端保存了用戶的隱私、行為數據?
4)執行(事件注入權限)
接到大模型發送到的指令后,GUI Agent就要根據識別的界面,模擬用戶的各種物理輸入來操作手機。這里就涉及到“上帝之手”權限——注入事件(INJECT EVENTS)。
這是系統級別的權限,普通APP讓用戶授權了也無法獲取,因為這涉及到操作系統內核的輸入。因此,需要手機廠商單獨給APP定制。并且為了確保唯一性,要使用與這個APP匹配的證書簽名才能訪問。
這里存在的爭議,就是權限是否最小化、用戶是否可以隨時暫停操作、操作日志是否記錄并提供用戶和監管機構審計。
可能有人會說,這是都是為了用戶更好的體驗,用戶都同意授權,市面上GUI Agent都是這么干的,這種屬于正常的商業合作模式。
提出來反對的都是“既得利益者”、“阻礙創新”,“怕被AI手機替代”,“未來AI手機不做了嗎?”。那我們來看下真正的AI手機應該是怎么什么樣子的
02 未來的AI手機
下面我們來看下未來的“AI 手機”如何來平衡上面的這些問題和爭議。
![]()
未來的AI手機系統架構圖
1.新老APP的兼容
未來會有適用于AI應用場景的“AI原生APP”,也會保持對“傳統APP”的兼容,這兩個類APP都能被系統級的GUI Agent來管理和調用,但是權限可以更加細分和靈活。
2.系統級GUI Agent
未來的AI手機的GUI Agent不再只是豆包自己的應用,而是一個系統級的Agent應用,它有公開的調用標準、數據隱私規范、統一的界面規范。
對于不希望接受Agent調用的傳統APP也是允許其人工操作。是否改造成“AI原生”,更多的是通過用戶和生態的壓力來倒逼這些APP升級,而不是強制調用,引來相互封殺。
當然在也可以通過國家標準和行業規范來讓這些傳統APP來執行規范,接受AI手機的調用。
3.應用框架的AI擴展
未來的AI手機應用框架是在現有安卓系統上進行的AI擴展,他兼容新老APP應用。
1)AI原生應用框架:
他在原有的安卓應用框架上擴展了適合AI原生的AI框架,它可以提供標準的AI原生應用接口、并且可以安全獲取系統級別的AI權限。
并且他可以集成本地多模態大模型,或者與云端大模型協同。在與云端協同前會過濾掉用戶的隱私數據來保障安全。
2)全局權限管理:
他的權限管理也是全局的,不需要通過手機廠商“開小灶”來給應用開通權限。并且他的開通的權限將會更加靈活和最小化。
應用的操作過程也是可以被記錄,并且能接受用戶、監管的審計。
3)豐富的事件分發:
AI手機的“看、做”行為,不再是讓APP通過“截屏”和“模擬操作”來實現自動化代理。
而是在系統級別層面實現了界面元素獲取、解析、以及用戶行為事件的處理,并且更加安全,可以有效避免權限被濫用。
可能有人會說,要等到這么多規范和技術條件成熟,那現在GUI Agent就不發展了?AI手機未來不做了嘛?
03 爭議在于不透明
我前面也說,我認為豆包“沒必要、也不敢”在用戶隱私數據、資金安全方面“冒險”。其實這一切的爭議都來自于不透明,由此造成了一系列的質疑與封殺。
豆包和中興現在一直強調是擁有用戶授權,并且僅解釋了用戶對于授權是知情的。但是對于用戶隱私數據和資金安全方面的都是通過“辟謠”的方式來澄清。并且也沒有任何權威的第三方對他的行為進行認證和審計。
豆包有必要對于“用戶、APP提供商、監管”一個交代。
回應大家普遍質疑的“隱私數據保護、技術安全標準、權限管理、日志審計、風險管理、合規性”等方面的問題,并且公開其標準或者接受權威機構審計。
唯有公開透明,打消了各方的疑慮,GUI Agent才能真正地發展起來。
否則都是“先干再合規,質疑靠辟謠”,那只會引來全面的封殺。“AI手機”、“AGI應用”也就沒有未來。
【群二維碼,有效7天,不聊支付的別加】
【群二維碼失效,可加我個人微信入群】
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.