![]()
機(jī)器之心原創(chuàng)
機(jī)器之心編輯部
手機(jī)上的 AI,從來(lái)沒(méi)有這么像真人。
最近一個(gè)星期,席卷科技圈的一款手機(jī)不來(lái)自任何一家硬件大廠,而是與字節(jié)的豆包聯(lián)系在了一起。
這款搭載豆包手機(jī)助手的工程機(jī)引爆了全網(wǎng),讓很多人第一次真切地感受到 Agent 已經(jīng)觸手可及。在某寶平臺(tái)上,這款手機(jī)的價(jià)格被炒到了近五千元。
![]()
本月初發(fā)布的豆包手機(jī)助手,目前還是技術(shù)預(yù)覽版。與大多數(shù)作為獨(dú)立 App 存在的 AI 助手都不一樣的是,它通過(guò)把 AI Agent 嵌入系統(tǒng)底層的方式,讓手機(jī)實(shí)現(xiàn)了端側(cè) AI 能力的全面突破,帶來(lái)了全新的交互方式和多模態(tài)體驗(yàn)。在不少科技從業(yè)者看來(lái),豆包手機(jī)助手已經(jīng)把 AI 工具的認(rèn)知推向了新的高度,它不再只是一個(gè)輔助工具或外置 App,而是與手機(jī)操作系統(tǒng)深度綁定的「超級(jí)管家」。
畢竟,只需要一句話,豆包手機(jī)助手可以真正地實(shí)現(xiàn)跨 App 的復(fù)雜指令執(zhí)行。除了其他手機(jī)上 Agent 常見(jiàn)的訂餐、記賬、修改設(shè)置等能力之外,豆包手機(jī)助手能夠攻克相對(duì)模糊且復(fù)雜的長(zhǎng)鏈條需求。

豆包手機(jī)助手全程無(wú)中斷地完成「地圖上標(biāo)記餐廳、查找博物館以及旅行平臺(tái)訂票」的多需求、長(zhǎng)鏈路任務(wù)。
這樣的表現(xiàn)讓人直呼:「是不是有點(diǎn)過(guò)于智能化了」。
與此同時(shí),圍繞豆包手機(jī)助手持續(xù)升溫的討論也引出了一些不同觀點(diǎn)與追問(wèn):「AI 操作手機(jī)」真的是未來(lái)人們用手機(jī)的常態(tài)嗎?要打造這樣一臺(tái) AI 手機(jī),豆包手機(jī)助手做對(duì)了什么?
在深入了解豆包手機(jī)助手背后的技術(shù)底座,并與四位學(xué)界專(zhuān)家進(jìn)行一番交流之后,我們對(duì)它如何重構(gòu)交互范式、推動(dòng)系統(tǒng)級(jí) GUI Agent 實(shí)現(xiàn)有了更加立體、清晰的認(rèn)知。
給手機(jī)裝系統(tǒng)級(jí) Agent,為什么這么難?
這兩年,無(wú)論是一些新興的 AI 硬件初創(chuàng)公司,還是國(guó)內(nèi)外主流手機(jī)廠商呈現(xiàn)出一個(gè)明顯的趨勢(shì):探索將原生 AI 能力更深度地融合進(jìn)設(shè)備系統(tǒng)中,最重要的形態(tài)之一便是引入 AI Agent。
其中,作為一種由多模態(tài)視覺(jué)模型驅(qū)動(dòng)的 AI 系統(tǒng),GUI Agent 在遵循以自然語(yǔ)言提出的指令下,能夠理解屏幕內(nèi)容、進(jìn)行自主推理,并在 UI 上執(zhí)行與人類(lèi)操作類(lèi)似的交互,如讀取信息、點(diǎn)擊按鈕、輸入內(nèi)容等,從而完成特定任務(wù)。
隨著 GUI Agent 能力在端側(cè)持續(xù)增強(qiáng),以更高集成度、更深層系統(tǒng)權(quán)限為特征的系統(tǒng)級(jí) GUI Agent 逐漸成為下一階段的核心目標(biāo),這要求不僅高效執(zhí)行任務(wù),還要理解上下文、協(xié)調(diào)多 App 流轉(zhuǎn)等。
但這樣的系統(tǒng)級(jí)實(shí)現(xiàn)并不容易。從學(xué)術(shù)與工程落地視角來(lái)看,大致需要克服以下四個(gè)層面的障礙:
一是感知層:Agent 需要在毫秒級(jí)內(nèi)識(shí)別出屏幕上所有的交互元素,比如圖標(biāo)、按鈕和文本框。此外還需要具備抗動(dòng)態(tài)干擾能力,這是因?yàn)?App 界面復(fù)雜,彈窗廣告、浮層、動(dòng)態(tài)加載內(nèi)容會(huì)產(chǎn)生視覺(jué)噪聲。GUI Agent 要具備「像素級(jí)」的精準(zhǔn)定位能力,同時(shí)理解圖標(biāo)背后的「功能語(yǔ)義」。
二是規(guī)劃層:主要涉及跨 App 的信息流轉(zhuǎn),包括 App 切換、上下文記憶提取、剪貼板操作等多個(gè)步驟;執(zhí)行過(guò)程中也可能會(huì)遇到網(wǎng)絡(luò)卡頓、登錄失效、意外彈窗等突發(fā)情況,傳統(tǒng)的腳本(workflow)一旦斷裂可能無(wú)法繼續(xù)。GUI Agent 要維持跨多 App 的邏輯連貫性,并具備自我反思能力,比如發(fā)現(xiàn)路徑不通而換一種方式。
三是決策層:GUI Agent 必須具備強(qiáng)泛化能力,不能只在見(jiàn)過(guò)的界面上工作,還要能夠在未見(jiàn)過(guò)的同類(lèi) App 中執(zhí)行相似操作。同時(shí),手機(jī)操作除了點(diǎn)擊之外,還包括長(zhǎng)按、滑動(dòng)和縮放等其他細(xì)粒度操作,對(duì) Agent 的反饋回路提出了更高要求,也意味著決策過(guò)程必須更加及時(shí)與精準(zhǔn)。
四是系統(tǒng)層:首先是響應(yīng)速度,用戶(hù)無(wú)法忍受長(zhǎng)時(shí)間的思考;其次是權(quán)限壁壘,在 Android 等嚴(yán)格的沙盒機(jī)制下,無(wú)法輕易獲取其他 App 的屏幕信息或進(jìn)行操作。GUI Agent 要在保證數(shù)據(jù)隱私安全和低延遲的前提下,打破操作系統(tǒng)內(nèi)部的數(shù)據(jù)孤島。
四個(gè)層面的障礙共同構(gòu)成系統(tǒng)級(jí) GUI Agent 落地過(guò)程中最核心的挑戰(zhàn)。其中在談到系統(tǒng)級(jí)跨 App 操作面臨的難題時(shí),蒙特利爾大學(xué)與 MILA 實(shí)驗(yàn)室副教授劉邦提到了感知層的界面理解與元素定位問(wèn)題,以及規(guī)劃層的長(zhǎng)鏈路任務(wù)規(guī)劃與狀態(tài)管理。真實(shí)用戶(hù)任務(wù)往往需幾十步、跨多個(gè) App,還可能出現(xiàn)彈窗、網(wǎng)絡(luò)延遲、權(quán)限請(qǐng)求、驗(yàn)證碼、異步加載等狀況。Agent 必須記住之前做了什么、當(dāng)前狀態(tài)如何、接下來(lái)可能發(fā)生什么,還要能應(yīng)對(duì)失敗或異常。
西湖大學(xué)通用人工智能(AGI)實(shí)驗(yàn)室負(fù)責(zé)人、助理教授張馳點(diǎn)出了上下文記憶和推理速度這兩項(xiàng)對(duì) GUI Agent 產(chǎn)品化至關(guān)重要的能力。上海交通大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師張偉楠博士認(rèn)為當(dāng)前的 AI 大廠往往通過(guò)一個(gè)或幾個(gè) App 發(fā)力,無(wú)法獲得最大的數(shù)據(jù)訪問(wèn)與操控權(quán)限,因此無(wú)法對(duì)齊用戶(hù)上下文,也無(wú)法做到用戶(hù)可以完成的操作。
浙江大學(xué)百人計(jì)劃研究員、博士生導(dǎo)師沈永亮總結(jié)了幾個(gè)難點(diǎn),包括長(zhǎng)鏈路規(guī)劃、推理速度以及輕量級(jí)模型如何管理短期與長(zhǎng)期記憶,這些也是當(dāng)前學(xué)術(shù)界普遍關(guān)注的核心瓶頸。
對(duì)于這樣一項(xiàng)貫穿 AI 技術(shù)、終端硬件、操作系統(tǒng)和生態(tài)協(xié)同的全鏈路重構(gòu)工程,任何一個(gè)環(huán)節(jié)的不成熟,都可能影響 Agent 走向真正的產(chǎn)品化。近兩年學(xué)界和業(yè)界開(kāi)始發(fā)力 Agent 載體的能力釋放,包括通用 GUI Agent 研究工作 AppAgent、Mobile-Agent、UI-TARS 等,以及依賴(lài)視覺(jué)識(shí)別與無(wú)障礙控制的 Rabbit 式通用 Agent 和手機(jī)廠商在 OS 層構(gòu)建的系統(tǒng)級(jí) Agent。
通過(guò)這些嘗試,AI 開(kāi)始能夠像人類(lèi)一樣操控手機(jī)屏幕并完成一些特定的任務(wù),但依然存在著不少問(wèn)題,比如不同 App 的權(quán)限開(kāi)放、長(zhǎng)鏈路復(fù)雜任務(wù)成功率低、等待時(shí)間長(zhǎng)、缺乏處理 UI 突發(fā)情況的能力,這些都限制了系統(tǒng)級(jí) GUI Agent 的穩(wěn)定性和實(shí)用性。
豆包手機(jī)助手取長(zhǎng)補(bǔ)短,采取了「GUI Agent + 系統(tǒng)級(jí)權(quán)限」的路徑。一方面,在手機(jī)上通過(guò)深度系統(tǒng)集成獲得了 Android 系統(tǒng)級(jí)權(quán)限,同時(shí)有更嚴(yán)格的使用限制,只有在用戶(hù)主動(dòng)授權(quán)之后才會(huì)調(diào)用該權(quán)限。這允許豆包手機(jī)助手模擬用戶(hù)點(diǎn)擊、滑動(dòng)、鍵入、跨 App 操作。另一方面,借助視覺(jué)多模態(tài)能力,即識(shí)別屏幕 UI、理解界面內(nèi)容、解析用戶(hù)意圖和執(zhí)行規(guī)劃,豆包手機(jī)助手自主決定「下一步該點(diǎn)哪兒、輸入什么、跳到哪個(gè) App」。用劉邦的說(shuō)法,這相當(dāng)于一個(gè)「幽靈手指 + 大腦 + 決策系統(tǒng)」
張馳強(qiáng)調(diào)了豆包手機(jī)助手的系統(tǒng)級(jí)整合能力,通過(guò)基礎(chǔ)能力的持續(xù)增強(qiáng)和多種技術(shù)方案的整合(如系統(tǒng)功能接口調(diào)用),做到更好的 GUI Agent 體驗(yàn)。張偉楠表示,豆包手機(jī)助手通過(guò) GUI Agent 打通 App 之間的壁壘,在對(duì)齊用戶(hù)上下文和操作空間上有了顯著進(jìn)步。「作為第一個(gè)手機(jī)廠商和大模型公司主導(dǎo)設(shè)計(jì)的 AI 手機(jī),設(shè)計(jì)邏輯上比傳統(tǒng)手機(jī)廠商做 AI 轉(zhuǎn)型設(shè)計(jì)的手機(jī)更具有顛覆性。」
沈永亮同樣突出了豆包手機(jī)助手主打的原生 GUI 視覺(jué)操作,與手機(jī)廠商深度合作達(dá)成系統(tǒng)級(jí)操作權(quán)限,直接向系統(tǒng)內(nèi)核發(fā)送指令來(lái)模擬人手指的點(diǎn)擊和滑動(dòng)。這種基于系統(tǒng)底層的視覺(jué)操作與以往依賴(lài)無(wú)障礙服務(wù)的第三方 App 有本質(zhì)區(qū)別,具備了極強(qiáng)的通用性,執(zhí)行過(guò)程更穩(wěn)定、更像真人,在推理速度與任務(wù)完成率上表現(xiàn)平衡,長(zhǎng)上下文處理能力相當(dāng)可觀。
整體看下來(lái),豆包手機(jī)助手正在構(gòu)建一個(gè)集「視覺(jué)理解、大模型推理與系統(tǒng)級(jí)原生執(zhí)行」于一體的通用 Agent 層,在面對(duì)不同 App 和界面形態(tài)時(shí)實(shí)現(xiàn)了可泛化的 UI 操作。
從兼容性、跨 App 自動(dòng)化執(zhí)行、長(zhǎng)鏈路任務(wù)處理、多任務(wù)調(diào)度等多個(gè)維度來(lái)看,豆包手機(jī)助手已經(jīng)展現(xiàn)出了優(yōu)于傳統(tǒng)腳本式自動(dòng)化或無(wú)障礙接口方案的能力。這些都為實(shí)現(xiàn)更高階的系統(tǒng)級(jí) GUI Agent 提供了更穩(wěn)健的基礎(chǔ)能力。
UI-TARS:豆包手機(jī)助手背后的自研系統(tǒng)級(jí) GUI Agent 引擎
相信大家已經(jīng)被豆包手機(jī)助手的各種演示刷屏了,無(wú)論是跨 App 訂機(jī)票、自動(dòng)比價(jià)、修改圖片,還是在手機(jī)上絲滑完成一整套復(fù)雜流程,這些能力表明:手機(jī)不再只是等你點(diǎn)的工具,而是開(kāi)始具備了主動(dòng)完成任務(wù)的能力。
這些能力的背后,正是字節(jié)在 2025 年陸續(xù)推出的自研開(kāi)源模型 UI-TARS。據(jù)悉,豆包手機(jī)助手使用的是 UI-TARS 閉源版本,不僅性能優(yōu)于其開(kāi)源版本,還針對(duì) Mobile Use 進(jìn)行了大量?jī)?yōu)化。
UI-TARS 最早可追溯到今年一月,其奠定了字節(jié)在 GUI Agent 方向的基礎(chǔ)框架;四月,團(tuán)隊(duì)進(jìn)一步發(fā)布進(jìn)階版 UI-TARS-1.5,該版本融合了由強(qiáng)化學(xué)習(xí)帶來(lái)的高級(jí)推理能力,使模型能夠在執(zhí)行動(dòng)作之前先進(jìn)行思考推演。九月推出的 UI-TARS-2 則將這一體系推進(jìn)到新的階段。
UI-TARS 包括用于可擴(kuò)展數(shù)據(jù)生成的數(shù)據(jù)飛輪機(jī)制、穩(wěn)定的多輪強(qiáng)化學(xué)習(xí)框架、融合文件系統(tǒng)與終端的混合式 GUI 環(huán)境,以及支持大規(guī)模 rollouts 的統(tǒng)一沙箱平臺(tái)。
![]()
首先,緩解數(shù)據(jù)稀缺問(wèn)題。現(xiàn)階段大規(guī)模預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)在對(duì)話、推理等領(lǐng)域已經(jīng)非常成熟,但一旦換到需要長(zhǎng)鏈操作的 GUI 任務(wù)上,就難以直接擴(kuò)展。因?yàn)?GUI 場(chǎng)景不像文本和代碼那樣可以輕松收集海量數(shù)據(jù),而是必須記錄完整的操作軌跡,包括每一步的推理、點(diǎn)擊、界面變化和反饋。這類(lèi)數(shù)據(jù)不僅難獲取、成本高,而且規(guī)模化收集尤其困難。
UI-TARS 設(shè)計(jì)了可擴(kuò)展的數(shù)據(jù)飛輪(Data Flywheel)機(jī)制,通過(guò)反復(fù)的訓(xùn)練持續(xù)提升模型能力和數(shù)據(jù)質(zhì)量。在每一輪循環(huán)中,最新的模型會(huì)生成新的智能體軌跡,這些軌跡隨后會(huì)被過(guò)濾并分配到最適合的訓(xùn)練階段。高質(zhì)量的輸出會(huì)被提升到更靠后的階段(如 SFT),而質(zhì)量較低的輸出則會(huì)回收至更早的階段(如 CT)。隨著多次迭代進(jìn)行,這種動(dòng)態(tài)再分配方式能夠確保每個(gè)訓(xùn)練階段都使用與其最匹配的數(shù)據(jù),從而形成一個(gè)自我強(qiáng)化的閉環(huán):更好的模型產(chǎn)生更好的數(shù)據(jù),而更好的數(shù)據(jù)又反過(guò)來(lái)訓(xùn)練出更強(qiáng)的模型。
![]()
其次,需要解決可擴(kuò)展的多輪強(qiáng)化學(xué)習(xí)問(wèn)題。在交互環(huán)境里做強(qiáng)化學(xué)習(xí)很難,因?yàn)橹悄荏w很難及時(shí)知道自己做得對(duì)不對(duì):獎(jiǎng)勵(lì)大多來(lái)得很慢、有時(shí)甚至沒(méi)有;訓(xùn)練過(guò)程也容易不穩(wěn)定。
為突破這一瓶頸,UI-TARS 構(gòu)建了一個(gè)專(zhuān)門(mén)面向長(zhǎng)鏈場(chǎng)景的訓(xùn)練框架,其中包括使用帶有狀態(tài)保持能力的異步 rollout 來(lái)維持上下文一致性;通過(guò)流式更新來(lái)避免長(zhǎng)尾軌跡導(dǎo)致的訓(xùn)練瓶頸;以及結(jié)合獎(jiǎng)勵(lì)塑形( Reward Shaping)、自適應(yīng)優(yōu)勢(shì)估計(jì)和值預(yù)訓(xùn)練的增強(qiáng)版近端策略?xún)?yōu)化(PPO)算法,以進(jìn)一步提升訓(xùn)練效果。
![]()
第三,突破純 GUI 操作限制。現(xiàn)實(shí)中的許多任務(wù)并不能單靠界面點(diǎn)擊完成,例如數(shù)據(jù)處理、軟件開(kāi)發(fā)、系統(tǒng)管理等,更高效的方式往往是直接操作文件系統(tǒng)、使用終端或調(diào)用外部工具。如果智能體只能依賴(lài) GUI 交互,其能力邊界就會(huì)非常有限。因此,一個(gè)真正高級(jí)的 GUI Agent 必須能夠?qū)D形化操作與這些系統(tǒng)資源無(wú)縫結(jié)合,使其不僅能點(diǎn)界面,還能執(zhí)行更真實(shí)、更復(fù)雜的工作流。
為此,UI-TARS 搭建了一個(gè)混合式 GUI 中心環(huán)境,使智能體不僅可執(zhí)行屏幕上的操作,還能調(diào)用文件系統(tǒng)、終端及其他外部工具,從而解決更廣泛的真實(shí)任務(wù)。這意味著,在 UI-TARS 的訓(xùn)練體系中,智能體的操作空間已經(jīng)從單純的點(diǎn)擊、輸入、滾動(dòng),拓展為能夠自由組合 GUI 操作與系統(tǒng)指令的更高維動(dòng)作集合。例如,它既可以在文件管理器中拖拽文件,也可以直接通過(guò) Shell 命令處理文本、解壓壓縮包、運(yùn)行腳本。可以說(shuō)這是系統(tǒng)級(jí) GUI Agent 能夠走向真實(shí)應(yīng)用的關(guān)鍵一步。
最后,即便具備豐富的交互能力,要部署大規(guī)模 RL 環(huán)境依然是工程瓶頸。因?yàn)橄到y(tǒng)需要在瀏覽器、虛擬機(jī)、模擬器里反復(fù)跑上百萬(wàn)次交互,還要保證結(jié)果可重復(fù)、出錯(cuò)能恢復(fù)、不影響訓(xùn)練流程。但現(xiàn)實(shí)情況是,這類(lèi)環(huán)境往往又慢又貴,還容易崩潰,想長(zhǎng)期、穩(wěn)定地跑大規(guī)模 RL 幾乎是件非常困難的工程任務(wù)。
為支持大規(guī)模訓(xùn)練與評(píng)估,UI-TARS 構(gòu)建了一個(gè)統(tǒng)一沙箱平臺(tái),其核心創(chuàng)新之一是共享文件系統(tǒng):這使得 GUI Agent 可以在同一個(gè)容器實(shí)例中實(shí)現(xiàn)諸如通過(guò)瀏覽器下載文件并立即用 Shell 命令處理連續(xù)跨工具操作。該沙箱不僅保持了復(fù)雜任務(wù)所需的穩(wěn)定性與可復(fù)現(xiàn)性,還在分布式計(jì)算資源上支持高吞吐訓(xùn)練,同時(shí)為數(shù)據(jù)標(biāo)注、評(píng)估和推理提供一致的環(huán)境。
依托這四項(xiàng)技術(shù),UI-TARS 為系統(tǒng)級(jí) GUI Agent 提供了真正可落地的基礎(chǔ)能力,使豆包手機(jī)助手能夠在真實(shí)手機(jī)操作系統(tǒng)中穩(wěn)定執(zhí)行跨 App、長(zhǎng)鏈路的復(fù)雜任務(wù),實(shí)現(xiàn)從對(duì)話智能向行動(dòng)智能的躍遷。
UI-TARS 的突出表現(xiàn),也得到了四位學(xué)界專(zhuān)家的認(rèn)可。在劉邦看來(lái):「UI-TARS-2 在學(xué)術(shù)層面為通用 GUI Agent 路線提供了一套經(jīng)過(guò)驗(yàn)證、可擴(kuò)展的基礎(chǔ)框架。」
他特別指出 UI-TARS-2 的研究?jī)r(jià)值在于它讓 AI 自動(dòng)操作圖形界面(GUI)具備了通用性與端到端特性:模型只需觀察屏幕截圖,就能通過(guò)視覺(jué)理解、多模態(tài)推理、模型推理、自動(dòng)點(diǎn)擊、輸入、滾動(dòng)等操作,模擬人類(lèi)操作界面。在這一基礎(chǔ)上,UI-TARS-2 通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)、自我生成與迭代的數(shù)據(jù)飛輪、統(tǒng)一的動(dòng)作空間設(shè)計(jì)以及混合式(Hybrid)環(huán)境,讓 Agent 在各種不同環(huán)境中都有較好表現(xiàn)
張馳也對(duì)這項(xiàng)研究給予了客觀評(píng)價(jià)。他指出,「UI-TARS-2 做出了許多兼具工業(yè)價(jià)值與學(xué)術(shù)價(jià)值的規(guī)模化探索,從模型底層能力入手,對(duì) GUI Agent 進(jìn)行了系統(tǒng)性的強(qiáng)化。
他進(jìn)一步強(qiáng)調(diào),與學(xué)術(shù)界普遍聚焦于 Agent 架構(gòu)或策略改進(jìn)不同,字節(jié)跳動(dòng)選擇直接面向模型能力本身發(fā)力,用大規(guī)模數(shù)據(jù)、算力與強(qiáng)化學(xué)習(xí)訓(xùn)練體系去提升智能體在真實(shí) GUI 環(huán)境中的最終效果,補(bǔ)上了學(xué)術(shù)界在資源與工程實(shí)踐方面的短板。
張偉楠表示,UI-TARS 是字節(jié)今年推出的杰出科研成果,自己帶領(lǐng)的團(tuán)隊(duì)在推進(jìn) GUI Agent 研究時(shí)也多次參考并引用了 UI-TARS。在他看來(lái),這套體系不僅為系統(tǒng)級(jí) GUI Agent 提供了清晰的技術(shù)路徑,也讓外界看到了字節(jié)在智能體方向持續(xù)輸出更強(qiáng)研究成果的能力
沈永亮則從初代 UI-TARS 到 UI-TARS 2.0 做了很好的點(diǎn)評(píng):「UI-TARS 1.0 走了一條視覺(jué)原生的端到端路線,通過(guò)構(gòu)建人工標(biāo)注數(shù)據(jù)和進(jìn)行大規(guī)模的 SFT、DPO 訓(xùn)練,向行業(yè)證明了只要數(shù)據(jù)飛輪轉(zhuǎn)起來(lái),不依賴(lài)各種花式 workflow 的純視覺(jué)方案也能走的通。后續(xù)版本這種領(lǐng)先優(yōu)勢(shì)進(jìn)一步從感知延伸到了推理和環(huán)境交互。UI-TARS 1.5 讓我們看到了強(qiáng)化學(xué)習(xí)在處理復(fù)雜任務(wù)時(shí)的關(guān)鍵作用,緊接著 UI-TARS 2.0 推出沙盒環(huán)境,讓模型能夠進(jìn)行無(wú)限的數(shù)據(jù) Scaling,通過(guò)在虛擬環(huán)境中不斷試錯(cuò)和生成數(shù)據(jù),實(shí)現(xiàn)了左腳踩右腳式的自我迭代提升。這一整套從純視覺(jué)感知到沙盒自我進(jìn)化的研究閉環(huán),無(wú)疑是目前行業(yè)里最前沿的探索。
從應(yīng)用體驗(yàn)到背后的 AI 模型技術(shù),豆包手機(jī)助手第一次在端側(cè)設(shè)備上實(shí)現(xiàn)了變革式的 AI 交互體驗(yàn)升級(jí),或許未來(lái) AI 手機(jī)的終極形態(tài),就會(huì)從這里開(kāi)始。
以它為起點(diǎn)繼續(xù)推演,在未來(lái)的手機(jī)上,我們可能面對(duì)的將不再是一個(gè)個(gè)獨(dú)立的 App,而是有一個(gè)「無(wú)所不能」的系統(tǒng)級(jí) GUI Agent 來(lái)自動(dòng)幫我們解決問(wèn)題。
隨著 AI 能力被內(nèi)化為核心,手機(jī) OS 系統(tǒng)不再只是資源管理器,而會(huì)進(jìn)化成為你的意圖調(diào)度器,實(shí)現(xiàn)真正的 AI 原生。各種能力由 AI 調(diào)用,交互的范式將會(huì)由「人找服務(wù)」轉(zhuǎn)變到「服務(wù)找人」。
你的手機(jī)將會(huì)從一個(gè)「能打電話的電腦」,轉(zhuǎn)變成為一個(gè)「擁有自主行動(dòng)能力的個(gè)人智能體」,它會(huì)真正成為能與你自然共處、深刻理解你、并能在數(shù)字與物理世界為你有效行動(dòng)的伙伴。
如果當(dāng)「意圖驅(qū)動(dòng) + 自動(dòng)化 + Agent」演變?yōu)橄到y(tǒng)自帶的功能,系統(tǒng)級(jí) GUI Agent 將成為下一代手機(jī)操作系統(tǒng)的標(biāo)配能力,劉邦和張馳都表達(dá)出了類(lèi)似的觀點(diǎn)。張偉楠也認(rèn)同GUI Agent 是當(dāng)前 AI 手機(jī)的實(shí)現(xiàn)路徑之一,并且相信很快可以達(dá)到媲美人類(lèi)的操作智能水平。沈永亮雖然沒(méi)有給出明確的答案,但他舉了觸屏手機(jī)取代實(shí)體鍵盤(pán)的例子來(lái)說(shuō)明,當(dāng)人們習(xí)慣了一句話就能讓手機(jī)自動(dòng)幫你完成任務(wù)(比如訂票、訂酒店),這種「用了就回不去」的便利性其實(shí)已經(jīng)告訴我們未來(lái)會(huì)走向哪里
不過(guò)仍有一些關(guān)鍵挑戰(zhàn)需要解決,包括設(shè)備端算力、系統(tǒng)級(jí) Agent 的協(xié)調(diào)管理權(quán)限、兼容與安全機(jī)制等。對(duì)于 AI 技術(shù)本身來(lái)說(shuō),模型感知的準(zhǔn)確度,在復(fù)雜任務(wù)上的規(guī)劃推理能力也是決定智能化程度的關(guān)鍵。
未來(lái)究竟會(huì)發(fā)展成什么樣?我們尚不能給出準(zhǔn)確的答案,不過(guò)可以肯定的是,系統(tǒng)級(jí) GUI Agent 探索所帶來(lái)的變革才剛剛開(kāi)始,想象空間遠(yuǎn)比我們當(dāng)下所能看到的更為廣闊。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.