![]()
中國市場,似乎總存在一種獨特的“加速度”,能夠把原本停留在抽象層面的技術命題,迅速推入現實世界,接受真實場景的檢驗。互聯網時代如此,AI時代也更是如此。
作者|斗斗
編輯|皮爺
出品|產業家
中國市場,似乎總存在一種獨特的“加速度”,能夠把原本停留在抽象層面的技術命題,迅速推入現實世界,接受真實場景的檢驗。互聯網時代如此,AI時代也更是如此。
這一特征,在12月初豆包與努比亞聯合推出的努比亞M153上體現得尤為集中。
在這款設備中,AI助手首次被賦予系統級執行權限,從調起外賣App、規劃出行路線,到整理文件、拆解任務并自主調度多個應用,其開始真正代替用戶完成跨應用操作,AI不再只是給建議,而是直接去做事。
而在當前的全球智能終端市場中,具備類似系統級自治執行能力的產品,幾乎找不到可對照的案例。
也正因如此,產品發布僅兩天,便在行業和用戶層面引發了較高的討論熱度。除了關于“權限”的爭議外,引發這場熱議的核心原因恰是,一個長期存在于產業敘事中的抽象想象,第一次被具象化地呈現在公眾面前,那就是AI,正在從能“思考”,邁向能“行動”。
事實上,過去兩年,圍繞AI Agent的討論從未停止。模型公司、終端廠商、應用平臺都在反復強調Agent將重寫數字經濟的運行邏輯。然而,用戶并沒有獲得實質性的體感。豆包手機一定程度上打破了這種距離感。如果說ChatGPT曾讓全球用戶第一次切身感受到AI會“思考”,那么手機端Agent的出現,則第一次讓人意識到,AI開始真正介入行動本身。
但這也引出了更深層的問題。那就是為什么AI必須從“能思考”走向“能行動”?又為什么,第一批具備行動能力的AI,會率先出現在手機這一終端形態之上?
更關鍵的追問在于,隨著一個可行動的AI被放到了聚光燈下,所有深埋在概念里的問題都被放到了臺面上,建立于移動互聯網上的一眾高頻場景,真的已經準備好迎接一個能夠獨立“行動”的AI嗎?
而更大的懸念,來自中國市場本身。
在國際科技巨頭普遍保持謹慎推進Agent的節奏下,中國市場以應用場景密度更高、用戶接受度更強、線上線下服務鏈路更完整、治理體系更統一,客觀上構成了一個“可以提前上路”的試驗場。中國能否在這一輪變革中率先跑出來?
這些問題,既指向AI Agent的未來走向,也將影響著中國數字經濟的下一個十年。
一、AI價值共識:
必須從“思考”邁向“行動”
“思考”型AI,正在遇到天花板。
OpenAI的財務情況,是一個直接的信號。2024年Q1,其推理成本還只是略高于收入,但2025年Q3,支出已經攀升到36.5億美元,同期收入只有20.6億美元。換言之,每賺1美元,就要在算力上花掉1.8美元,業務規模越大,虧損反而越深。
![]()
這種失衡,并不是個別公司的管理問題,而是由這一路徑內在的成本結構所決定。隨著模型越迭代越大、參數越多、推理鏈條越長,需要的計算資源就會快速上升,推理成本幾乎是“往上躥”的曲線。而收入端卻受制于企業付費意愿和應用滲透節奏,只能緩慢爬坡。當“指數級的算力開支”遇到“線性增長的營收”,商業模型就會變得很吃力。
承壓的遠不止OpenAI。據UBS研究報告顯示,自2024到2025年間,AI基礎設施領域的投資資金從150億美元激增至1250億美元,幾乎增長了8倍,但相關企業的利潤增長并未同步提升。
從商業視角看,這一現象指向的是同一個核心問題。那就是以“思考”為主的AI,確實能為企業創造價值,但很難直接參與價值結算。當前大模型主流收費方式,仍以Token計價、調用次數計費為主,本質上仍是API生意,單位價值有限,且高度可替代。資本與產業對這種邊界的感知,往往比技術社區更為敏銳。在既有形態下,“思考”型AI更像是一種效率工具,而非業務體系中不可或缺的生產要素。
于是,當這一輪“只會思考”的紅利逐漸見頂,幾乎所有頭部玩家開始意識到,AI下一個價值點不在“思考”能力,而在“行動”能力。
那么,誰能掌握“行動權”?
其實,在傳統的數字經濟里,“行動權”主要集中于兩類主體中,一類是操作系統和終端廠商,它們控制設備權限、系統入口、通知與前臺展示;另一類是超級應用和平臺公司,它們掌握著服務入口、交易鏈路以及用戶關系。而在AI時代,Agent作為新的技術載體,被推至臺前,逐漸演化為跨應用、跨服務的調度中樞。
這也是為什么模型公司、平臺公司、終端廠商雖然敘事各異,但在資源投入和戰略重心上,最終都不約而同地指向Agent。因為誰能占據這一調度層,誰就有機會在下一輪數字經濟中,重新定義收費方式和價值分配邏輯。
在這一競爭中,手機成了一個繞不開的載體。
數據顯示,中國成年用戶平均每天使用手機約6.2小時,完成超過120次數字動作。支付、地圖、出行、即時通訊等95%的高頻任務,都發生在手機上。幾乎所有與個人生活和工作相關的關鍵動作,都被壓縮在這塊小小的屏幕里。是用戶“行動密度”最高的終端。
更關鍵的是,手機操作系統天然掌握著AI行動所需的應用安裝和調用權限、前后臺調度、身份認證、支付接口、系統級通知等,這些是一條“行動鏈路”的基礎設施。
在這樣的結構性條件下,手機終端順理成章地成為各方驗證AI商業價值的首要試驗場,也成為“行動型AI”競爭中最先被點燃的戰場。
二、Agent偽命題背后:
三方勢力試水“AI執行”
在Agent的方向逐漸清晰之后,企業開始“試水”,其中有三方勢力,進入了對“AI行動權”的爭奪戰場。
最先動起來的,是以阿里、百度、騰訊等為代表的基礎模型服務商。
對模型服務商而言,最直接、也是成本最低的落點,必然是自身已經掌握的應用入口。以阿里的千問為代表,這類廠商普遍選擇通過“模型+自家應用生態”的方式承載Agent能力,即在一個統一的AI入口中,整合多模態、寫作、代碼與生活服務能力,并逐步打通云服務、電商與本地生活場景。生成的內容可以直接進入釘釘等,購物建議也能順滑跳轉到淘系完成交易,從而在單一App內形成相對完整的執行閉環。
這種路徑的優勢在于模型能力強、生態協同度高,Agent可以在一個相對可控且在App層面充分放權的環境中嘗試執行任務。但其邊界同樣明顯,那就是應用層能力,其權限止步于App之外,無法調度系統級資源,行動范圍天然受限。
當應用層的邊界逐漸顯露,產業的視角也隨之向下移動至系統層。
這正是終端廠商集體入場的背景。OPPO、小米、vivo、榮耀幾乎同時將“大模型+系統級助手”確立為AI手機的核心方向,無論是OPPO在ColorOS中提出的“Agent Matrix”,還是小米在澎湃OS中對“超級小愛”的重構,核心目標都是讓AI在操作系統層完成任務拆解、編排流程,并實現跨應用完成執行。
相比模型廠商,終端廠商的優勢在于其太天然掌握系統級權限,比如通知管理、前后臺調度、懸浮窗、無障礙接口,這些都是AI行動的關鍵入口。但與此同時,它們也承載著更重的約束,即一旦系統級自動化失控,沖擊的將是整個應用生態與用戶體驗。因此,大多數廠商采取的都是漸進式推進策略,在原有助手框架內,謹慎擴大自動執行的邊界,而非直接釋放一個高度自治的Agent。
也正是在這種“有權限但不敢放開”的空隙中,原生AI廠商看到了另一種可能。
與模型廠商和終端廠商不同,豆包這類原生AI玩家既沒有操作系統,也沒有平臺級生態,唯一的核心資產是模型能力。如果無法切入行動層,或將只能停留在API供應商的位置。因此,豆包選擇了一條更為激進的路徑,直接爭奪系統層的行動入口。
不同于單純做App,豆包手機助手一開始就選擇與中興在OS層深度合作,讓大模型以虛擬用戶的方式操作手機界面。在M153工程機上,用戶已經能直觀看到一種更接近真實Agent的形態。
不過,其也迅速觸碰到了現實阻力。當系統級Agent具備自主操作能力,應用方會本能地進入防御狀態,通過權限、協議和風控策略限制自動行為。這背后既有合規需求,也有對既有流量結構和商業模式被重構的警惕。
綜合來看,三條路徑共同勾勒出當前Agent競爭的基本圖景。模型廠商在“模型+自家生態”中做Agent,有智力,但缺乏權限;終端廠商在OS層做Agent,有權限,卻必須優先維護生態穩定;原生AI廠商試圖借系統合作直達行動中樞,野心最大,也最容易遭遇阻力。
表面上,Agent之戰比的是模型能力和交互體驗。但真正決定成敗的,并不在模型層或單一應用層,而是誰能在不打破既有秩序的前提下,為AI爭取到足夠的行動空間。不過就目前來看,在規則尚未重構之前,Agent真正行動的幅度,注定有限。大多數探索仍被牢牢限制在各自的生態邊界之內。
三、鯰魚背后:
一個正在推進的產業結構重塑
在豆包手機和這一輪“試水”過程中,更深層的體系性矛盾被集中暴露出來。
在既有數字體系中,操作權限天然綁定于人類用戶之上。而當一個非人類智能體開始持續、規模化地發起操作。這套默認前提便不再成立。誰來界定AI能做什么、不能做什么。當Agent可以完成支付、下單、修改信息乃至直接參與交易時,權限的邊界不再清晰,傳統的授權邏輯隨之松動。
隨之而來的是商業模式的挑戰。在依賴人類注意力的體系中,廣告與推薦形成了穩定閉環;但當決策者變成Agent,沒有點擊和停留,價值如何衡量,收益如何分配,迄今仍缺乏可復制的答案。
第三個問題是責任機制的缺位。當AI出現錯誤并造成損失,責任應由平臺、模型、用戶還是Agent本身承擔,在法律與制度尚未完善之前,這一問題無法被回避。
從更底層的視角看,這些問題歸根結底,其實都源于基礎設施的缺失。
目前,大量應用仍只為人類操作而設計,缺乏標準化動作接口和可驗證結果的能力,整個生態并沒有為AI“動起來”做好準備。所以,AI Agent面臨的核心挑戰不是技術不足,而是體系滯后。當圍繞人類用戶構建的規則逐漸失效,而新的行為主體已經入場,沖突幾乎不可避免。
但也是這些沖突,正在倒逼產業鏈上的各方重新審視自己位置,并以不同姿態加速入場。
例如,智譜近期推出的AutoGLM,已不只是一個對話系統,而是具備“Phone Use”能力的智能體產品,能夠根據用戶指令自動完成打開APP、下單、選擇支付等復雜操作,呈現出AI Agent執行真實任務的雛形。該技術甚至被業界視為,全球首個具備此類手機操作能力的開源代理模型。
與此同時,一些SaaS和B端服務,也在弱化復雜UI,轉而提供更清晰、可預測的指令化接口,本質上是在為Agent預留入口。
當越來越多的參與者開始圍繞“如何讓AI真正動起來”重構自身能力,Agent時代便不再只是概念上的演進,而是逐步具備了現實發生的條件。
在此基礎上,可以預見的并非一場簡單的“替代”,而是一輪長期的結構性遷移。Agent的出現并不意味著推薦流或信息流廣告會迅速消亡。無論是搜索、內容分發還是商品推薦。在執行任務前依然需要參考排序結果,但這套體系的服務對象,正在從“人”轉向“Agent”。
這一轉變,將進一步引發UI價值的結構性重估。長期來看,“對人友好”的UI將持續貶值,尤其是在B端場景中;相反,動作語義清晰、接口穩定、結果可預期、可驗證的服務,將逐步獲得更高的調用權重。對Agent友好,正在成為新的基礎能力。
而在這場重構中,并非所有市場都會以同樣的速度適應。有些只能被動調整,有些則具備成為天然加速器的條件。
四、中國市場,
在成為AI最好的試驗田
放眼全球,AI技術競爭正迅速進入白熱化階段。近兩年,大模型在參數規模、推理能力和多模態表現上的進步速度明顯加快。僅2023–2024年間,主流模型在MMLU、GSM8K等推理基準上的正確率提升幅度普遍超過20個百分點,多模態模型在圖像、語音、視頻理解上的能力也被不斷刷新。模型能力的進化周期,已經從“以年計”壓縮到“以月計”。
![]()
在這一背景下,各國、各大科技公司幾乎沿著同一條技術曲線前進。無論是模型規模、訓練方法,還是推理優化路徑,都在快速趨同,模型之間的能力差距正在被迅速拉平。
但當視角從能力競爭轉向實際落地,分化開始顯現。
AI Agent的真正成立,所依賴的不只是模型智能,而是一整套可執行、可協同、可規模化的落地環境。一個事實是,能夠承載Agent的市場,至少需要幾個前提。比如,足夠密集且標準化的服務場景,才能讓任務被拆解并自動完成;完整的線上到線下閉環,才能讓決策直接轉化為現實結果;用戶對自動化與代理行為的高度接受,才能讓授權與信任成為常態;產業鏈之間足夠快的協同能力,才能讓接口、權限和規則不斷迭代;以及一個能夠推動標準逐步統一的治理體系,為AI行動劃定安全邊界。
正是在這些維度上,不同市場開始出現分化。
數據顯示,美國用戶月均使用App數約40–45個,而中國用戶約25–30個;中國前5大超級App微信、支付寶、抖音等,占用戶總使用時長大60%,而美國前5大App使用時長占比不足35%。
一個事實是,許多海外市場在服務結構、場景密度和系統協同上相對分散。應用碎片化、線上線下割裂、權限高度敏感,使得AI更多停留在建議者、助手的角色,很難自然過渡為真正的執行者。
而在中國市場,幾乎是天然具備AI Agent所需的運行條件。
具體來看,高密度、可自動化的生活與商業服務,已經將大量現實行為壓縮為標準流程。外賣、出行、零售、政務、金融等領域高度平臺化,使得任務具備清晰接口。支付、履約、調度體系的全面數字化,使線上指令可以直接撬動線下結果。長期的產品演進,也顯著提高了用戶對自動化執行與代理行為的接受度。
與此同時,中國市場在模型、終端、App與服務平臺之間,具備快速聯動和對齊的能力。這種能力并非來自單一企業,而是整個數字生態長期積累的結果。多重因素疊加,使得AI Agent不只是理論上可行,而是真正跑得下去。
也正是在這樣的背景下,豆包手機所代表的Agent形態率先出現在中國,并非偶然。是市場條件成熟后的一次自然顯現。當權限體系、服務接口、用戶習慣與產業協同同時到位,AI Agent才第一次以“可以日常使用”的形態出現。
從這個視角看,中國市場正在提供一塊極具價值的試驗田,用以驗證AI Agent是否具備真正規模化運行的可能。而能夠在這樣的環境中跑通的廠商,未來輸出到全球的,將不只是模型參數或單一產品形態,而是一整套圍繞AI行動而重構的新AGI操作系統。
豆包手機,正是被打響的第一槍。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.