![]()
吃上豆包的手機先邁一步。
作者|古廿
編輯|楊舟
12月1日,字節跳動豆包團隊發布了一段視頻,演示了豆包手機助手的一系列能力。
從視頻中的場景看,豆包手機助手的能力覆蓋跨應用執行流程、屏幕內容讀取、多模態識別、系統級喚醒、跨平臺比價下單、遠程控制汽車等操作。在開啟記憶功能后,執行路徑所需的詢問也明顯減少,具備一定連續任務能力。
這些能力幾乎覆蓋了過去數年間用戶對于“AI手機助手”想象中的典型使用場景。因此盡管目前仍處于技術預覽階段,但還是使語音助手這個沉寂多年的手機能力,被重新放到了主流視野的討論范圍。
這款手機助手并非單一的App,而是以和手機廠商合作的形式推出。目前演示所用機型來自豆包與中興合作的一款設備,前者主導AI助手的產品定義與交互體驗,后者負責硬件研發與制造。
發售僅一天,12月2日據中興商城顯示,首款搭載豆包助手的合作機型已顯示“售罄”。對于備貨和銷量數據,努比亞方面對外公開表示,“目前暫時沒有銷量數據,因為是第一款,少量對外發售。”
在二手平臺閑魚上,該機標價普遍在4200元至4999元之間,較官方定價溢價700至1500元不等。豆包方面表示,目前并沒有開發手機的計劃,現階段推進的方向是與多家手機廠商進行合作落地。
手機助手并非新鮮概念,其在智能手機中存在已久,但定位始終模糊。幾乎所有主流廠商在系統更新中都延續了語音助手的入口設計,但它從未成為用戶購機決策的關鍵因素。
背后的原因并不復雜。在多數用戶的真實體驗里,語音助手能回應,卻幫不上忙。過去十年來,語音助手的能力上限基本停留在識別語句、回答問題、打開應用,長期游走在對話交互的界面。
從時間線來看,2011年Siri隨iPhone4s推出;2016年Google Assistant發布;國內手機廠商也在此后不斷補齊本地化能力。從用戶視角看,它們仍然屬于同一代產品:可以理解意圖,但無法真正代替用戶完成任務。
近期行業出現了久違的變化。先是谷歌上個月宣布將在2026年停用Assistant語音助手,把系統級交互入口遷移至Gemini;接著國內本月,字節發布豆包手機助手預覽版,實現讓AI執行跨應用操作,而不是僅停留在語義對話。
這兩件事雖然相隔不同市場,但方向一致:手機助手或許將要走出嘴勤手笨的體驗困局了。
01從一問一答到跨應用執行
喬布斯曾在介紹Siri時說,它不是搜索引擎,而是人工智能。如果語音助手具備學習能力,且長期與數億用戶交互,照理說,它的表現應越來越接近自然語言交流,而不是反復回到“對不起,我不明白你在說什么”的原點。
2011年,iPhone 4S發布會上,Siri首次亮相,標志著語音交互作為系統級能力被引入智能手機。Siri的英文全稱是“Speech Interpretation & Recognition Interface”,也即強調語義識別而非命令觸發。
在當時,這種一問一答的模式代表了人機交互的一次方向性突破。接下來的十年,這個方向并沒有持續推進。
以Siri為代表的語音助手,其功能范圍不斷從語音控制電話、短信,擴展至語音字幕、智能通話、識屏、家居聯動等系統能力。但最核心的能力:理解并執行任務,一直停留在語音問答階段,幾乎沒有實質性進展。
這也是為什么,豆包手機助手的演示視頻能重新激發行業關注:它不再是對話界面,而是執行界面。產品的核心轉向,是將語音助手從“信息返回”升級為“任務完成”,將用戶語義直接轉譯為一整套操作路徑。
它關注的不是陪你說學逗唱解悶,而是可以幫助你完成什么任務。
例如,在比價購物場景中,用戶只需說一句:“幫我把這瓶洗發水在我所有購物軟件上比價并選最便宜的下單”,助手便會自動在淘寶、京東、拼多多、抖音商城等App中依次搜索、比價、自動領券,篩出最低價后停在支付頁,等待用戶確認,避免自動扣款帶來的誤操作或越權風險。
![]()
再如圖片處理,用戶說“把這張照片里的人去掉”“把背景清理一下”,助手可以自動識別目標區域、調用圖像編輯工具并完成操作,無需用戶打開App逐步執行。
![]()
甚至在更復雜的跨場景鏈路中,豆包也游刃有余。用戶可一次性發出多個指令,如:“訂閱這個播客的更新并加入播放列表 → 打開特斯拉前備箱 → 訂一個今晚八點半的餐廳”,助手將依次在對應App中完成操作,串聯起本地應用與線下行為。
手機助手從回答問題,到完成任務,這一步花了十二年才真正走出來。
02原生的AI交互體系
能夠實現跨應用、多場景執行的手機助手,并不只是語義理解能力的堆疊。支持豆包手機助手能力的,是兩個體系的同時成立:模型的執行規劃能力和系統層面的原生接入能力。
首先是模型層面。豆包模型不僅做語義理解,還做界面理解與操作規劃。它能夠識別屏幕中的文本、按鈕、布局、步驟邏輯,從而生成穩定的操作路徑。最終呈現出不是“告訴用戶怎么做”,而是“手機助手完成一系列點擊和輸入”。
這與傳統語音助手停留在響應指令不同,本質上是一套GUI操作能力。
這套能力的核心是豆包在推理、視覺理解、圖像創作、視頻生成、語音等方面的性能達到國際一流水平,圖形界面操作能力更是在多項權威評測中獲得業界最佳成績,可以像人類一樣操作手機,完成各種復雜任務。
其次是交互層面。豆包手機助手并不是一個獨立App,而是通過與手機廠商合作,在操作系統層獲得了調用權限。這意味著模型不再運行在應用層,而是能夠調度系統資源,跨應用組織動作。
在豆包手機助手發布的技術預覽版演示視頻中可以看到,AI助手在與手機廠商深度合作后,可以將豆包大模型融入原生交互體系,在手機使用的任意環節實現直接調用。
![]()
從演示視頻看,兩種能力結合后呈現的交互方式發生了明顯變化:
用戶無需復制內容或切換App,在任意界面都可以直接發起詢問;屏幕內容會被即時理解,例如對照片提問“這個景點在哪”“是從什么視角拍的”,助手直接返回信息;原豆包生態中的語音通話、視頻通話、屏幕共享等能力被系統級集成,僅需雙擊AI鍵即可進入實時對話。
兩種體系能力的疊加下,豆包手機助手不再是一個額外功能,而是成為融入系統底層的能力。這意味著,大模型第一次不是作為“插件”存在,而是開始嵌入到系統級交互之中,成為手機操作鏈路中的一個原生AI節點。
03AI原生手機的完全體
從演示內容來看,目前展示的能力還可以自定義個性化。豆包手機助手提供可選的記憶功能。在用戶授權情況下,助手可以通過常用的個人偏好,提供更符合個人習慣的執行路徑規劃。
同時,豆包還探索了操作手機Pro模式。相較于基礎模式依賴GUI Agent的逐步點擊,Pro模式可以直接調用系統工具,并結合記憶數據規劃操作方案。這一模式的關鍵轉變,在于從逐條指令執行轉向對用戶真實意圖的整體把握。
發布視頻中的示例體現了這種差異:
用戶說“幫我給女兒推薦幾個禮物放進購物車”,在基礎模式下,這是一個至少包含多個搜索、篩選和下單動作的復雜任務;而在Pro模式中,如果記憶中已記錄孩子的年齡和興趣,助手會直接聚焦與其匹配的商品并加入購物車,無需用戶逐條補充條件。
跨應用執行解決了能做,記憶和Pro模式嘗試解決該怎么做才合理。
需要強調的是,盡管此次演示內容為真實錄制,但豆包仍將其定義為技術預覽版本。官方提示,大模型當前階段仍存在不確定性,無法保證在所有場景中穩定復現。這意味著方向已經清晰,但距離產品層面的完全體,仍有一定距離。
不過,即使尚在早期階段,豆包手機助手在“執行權的可控性”上,已體現出一套較為完整的系統設計。當前演示中至少呈現出三層可控機制:
其一,任務狀態可視化。當手機由助手執行任務時,屏幕將呈現動態光效提示;即便用戶中途接管操作,屏幕邊框仍顯示任務提示,避免后臺運行造成的信息不對稱。
其二,狀態欄膠囊機制。在無前臺界面的情況下,所有任務進展均通過膠囊形式呈現在狀態欄,涉及支付或授權等關鍵節點時,系統亦會發出明確提醒。
其三,信息補充機制。用戶可在任務執行過程中隨時進入交互界面,通過補充入口增補必要信息,保障任務結果的準確性和實用性。
這些機制背后的核心邏輯并非追求“最大限度自動化”,而是在明確邊界下實現“透明、可中斷、可協商”的自動執行能力。
值得注意的是,豆包手機助手的出現并不是一項孤立現象,而是在全球智能手機產業中出現的同類指向。
谷歌上月宣布2026年停用Assistant,將系統級入口遷移至Gemini;Gemini與三星合作的系統級Agent也正在落地測試。行業共識逐漸顯現:手機廠商+大模型廠商的深度合作,而不是廠商單獨構建語音助手,是新一代手機落地AI的主路徑。
從助手入口向系統能力躍遷,手機行業關于AI操作系統的探索,可能正進入到更清晰的階段。
本文為《市象》原創文章
未經授權不得轉載或建立鏡像
轉載、交流、合作請添加微信:MingFei_99
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.