![]()
文:任澤平團(tuán)隊
比爾蓋茨曾斷言 “Agent將是未來計算機(jī)交互史上最大的革命”。如果說ChatGPT等生成式AI是博學(xué)的軍師,AI Agent將是最有力的執(zhí)行者。它不再是一個AI聊天框,而是擁有了“數(shù)字手腳”,能直接操控App和瀏覽器、鼠標(biāo)和鍵盤,替你直接一鍵到底的完成復(fù)雜工作,采購、訂票、報銷……正如英偉達(dá)黃仁勛所言,我們正在跨越生成式AI,邁向AI Agent的新紀(jì)元。
這場革命的核心在于行動力。Agent不再局限于生成文本,而是通過“大腦規(guī)劃+工具調(diào)用+記憶經(jīng)驗”,接管了數(shù)字世界的繁瑣流程。你只需定義目標(biāo),AI Agent會自動拆解步驟、穿透各應(yīng)用,幫你把事辦成。無論是OpenAI發(fā)布的Operator、還是谷歌Jarvis接管Chrome、微軟推出的Windows 365 for Agents,大廠們正掀起一場關(guān)于超級入口的卡位戰(zhàn)。中國企業(yè)Manus與Meta的天價收購傳聞,更是引爆了這場Agent軍備競賽。
然而,Agent若要成為新基建,必須解決“書同文,車同軌”的標(biāo)準(zhǔn)問題。MCP協(xié)議應(yīng)運(yùn)而生,作為AI時代的“Type-C接口”,它讓大模型能像插U盤一樣即插即用;配合谷歌提出的A2A協(xié)議,硅基世界正在形成一個互聯(lián)互通的AI Agent聯(lián)盟。
但落地的最大阻礙并不僅是技術(shù),還有利益重構(gòu)。字節(jié)的豆包手機(jī)遭遇的生態(tài)圍剿,這就是AI Agent和App之間的利益矛盾體現(xiàn)。這是一場關(guān)于AI時代的流量、數(shù)據(jù)與入口主權(quán)之戰(zhàn)。未來,AI Agent將重塑流量世界、過去互聯(lián)網(wǎng)時代的很多商業(yè)模式將被改寫。
1、什么是AI Agent:它讓未來生活發(fā)生哪些改變?
首先,我們要明白,什么是AI Agent?簡單來說,如果之前的ChatGPT、Deepseek是AI軍師,負(fù)責(zé)幫你出主意、跟你對話;那Agent就是執(zhí)行官,它不僅有腦子,還長出了“手”和“腳”,能真正用自動化的AI能力幫你把事情辦好。
AI Agent到底有多強(qiáng)?看看這些正在發(fā)生的例子:
比如,阿里通義千問AI,里面聚合了生活服務(wù)Agent:你只需要對它說一句“幫我點(diǎn)杯拿鐵”,它就能自己打開淘寶閃購,選好店、下好單,甚至能利用你的歷史偏好決定加不加糖。它不再是給你返回一堆文字鏈接,而是直接交付一個下單成功的結(jié)果。
2025年末推出的第一代豆包手機(jī),這是系統(tǒng)級Agent:在豆包的手機(jī)終端里,AI擁有了跨APP的權(quán)限。你想訂票、發(fā)微信、查地圖,理論上是不需要在一個個APP之間來回跳轉(zhuǎn)。你下達(dá)指令,Agent就在后臺自動調(diào)度各個APP幫你完成,APP之間的墻被推倒了。
再比如瀏覽器Agent,Google推出的Jarvis,可以直接接管你的Chrome瀏覽器。如果想訂一張機(jī)票,它能自動打開網(wǎng)頁、搜索航班、比價、甚至填寫乘客信息,幫你搞定所有繁瑣的網(wǎng)頁操作。
如果說生成式AI比如ChatGPT、DeepSeek是讓我們看到AI的“博學(xué)”,那么代理式AI Agent則讓我們看到AI的“能干”。這是AI發(fā)展的新浪潮,也是AI能真正未來普惠每一個人的超級應(yīng)用。
在2025年的GTC大會上,黃仁勛提出了著名的AI四階段論:第一個階段是讓機(jī)器能聽能看的“感知AI”,第二階段是能寫詩作畫的“生成式AI”,現(xiàn)在我們正跨入第三階段——“代理式AI”,這就是Agent,而終局則是“具身智能AI”。
![]()
按OpenAI的定義,Agent是具備高度獨(dú)立性、能代表用戶使用工具完成任務(wù)的系統(tǒng),它的核心區(qū)別在于“行動力”,不再是一個只會陪你聊天的“大腦”,而是長出了“手腳”。生成式AI生成的是內(nèi)容,而Agent生成的是行動。
Claude認(rèn)為:Agent是大模型學(xué)會了使用工具,能夠動態(tài)規(guī)劃流程,獨(dú)立完成任務(wù)。
比爾蓋茨更是斷言:Agent將是繼Windows之后,計算機(jī)交互史上最大的革命,它將徹底改變由于APP造成的數(shù)據(jù)孤島。
![]()
AI Agent是從“對話AI”到“干活A(yù)I”的本質(zhì)躍遷,Agent工作過程分為三個階段:
1、大腦+規(guī)劃:它能像人類一樣運(yùn)用思維鏈,把一個復(fù)雜目標(biāo),比如如“幫我策劃并預(yù)定一次旅行”拆解為查機(jī)票、比價、訂酒店、做攻略等一連串步驟。在任務(wù)后,還能反思與自我批判,完成“規(guī)劃-行動后反思-優(yōu)化”的循環(huán)。
2、手腳+工具:它不再局限于生成文本,而是能調(diào)用外部工具,比如它能打開瀏覽器搜索最新信息,能調(diào)用計算器算賬,能調(diào)用代碼解釋器跑程序,甚至能直接操控你的日歷和訂票系統(tǒng)。
3、記憶+經(jīng)驗:Agent有長期記憶,長期記憶負(fù)責(zé)存儲那些需要跨任務(wù)、跨會話持久化保存的信息,例如用戶的基本信息、偏好、過往的重要交互記錄,以及Agent從任務(wù)中總結(jié)出的知識和經(jīng)驗等;Agent還有短期記憶,能記住當(dāng)前的任務(wù)進(jìn)度。因此能夠相互參考作出對用戶最有利的抉擇。
未來的世界,當(dāng)Agent接管一切,每個人都將擁有一個乃至一支Agent團(tuán)隊。Agent將AI裝進(jìn)負(fù)責(zé)的操作系統(tǒng)和軟件里,接管數(shù)字世界的繁瑣流程。用戶不再需要學(xué)習(xí)如何使用復(fù)雜的軟件,你只需要告訴你的Agent:“幫我搞定這件事”。
未來的可能的三大改變:
第一個構(gòu)想是,APP后臺化、部分App會消失、APP的流量廣告等商業(yè)模式面臨重構(gòu)。在未來有了Agent,手機(jī)屏幕上可能不再有密密麻麻的圖標(biāo),打車時不需要尋找滴滴、Uber,直接告訴Agent要去哪里,約什么類型的車, Agent會在后臺瞬間喚醒各個出行APP的接口,自動完成比價、下單、支付。APP不再是爭奪你注意力的前臺,而退化為提供服務(wù)能力的后臺,現(xiàn)在App們的商業(yè)模式也將面臨改變。
第二構(gòu)想是,Agent替代傳統(tǒng)操作系統(tǒng)、操作系統(tǒng)擬人化。未來的操作系統(tǒng)不再是冷冰冰的,而是一個全知全能的硅基管家。系統(tǒng)讀得懂你的一切。早上Agent根據(jù)你的日程和路況,自動調(diào)整了鬧鐘,并讓咖啡機(jī)提前準(zhǔn)備好。工作時候它監(jiān)測到你在寫的內(nèi)容,自動從后臺數(shù)據(jù)庫里調(diào)取了數(shù)據(jù),幫你做好圖表。Agent還能記住了朋友的生日,自動在鮮花電商下單。人不再用去學(xué)習(xí)怎么點(diǎn)擊系統(tǒng),而是完全的系統(tǒng)服務(wù)于人,Agent來猜你的意圖。
第三個構(gòu)想是,人類角色的終極轉(zhuǎn)變。當(dāng)Agent能以高成功率搞定所有時,人類的價值將被重新定義。 我們不再需要做PPT美化、不需要親自比價……人類唯一剩下的工作就是決策和審美。人類需要告訴Agent做什么,并判斷它做出的結(jié)果好不好。 這是一個超級個體的時代:一個人,加上一支不知疲倦的Agent團(tuán)隊,其生產(chǎn)力將超過過去的一家公司。
![]()
2、行業(yè)格局:Manus掀起“鯰魚效應(yīng)”,引爆Agent卡位戰(zhàn)
2026年初,全球科技圈最大的新聞是Meta擬以數(shù)百億美元天價收購Manus。
為什么扎克伯格要買?Meta也焦慮了。Meta擁有大模型Llama,但缺乏一個能直接觸達(dá)用戶、替用戶解決復(fù)雜任務(wù)的超級入口。Manus展現(xiàn)出的通用任務(wù)規(guī)劃能力,恰恰是Meta的AI 拼圖中缺失的最關(guān)鍵一環(huán)。這證明了中國AI企業(yè)在產(chǎn)品力、工程化能力上,已經(jīng)具備了全球競爭力。
Manus的爆火和Meta的動作,代表一場針對AI Agent的卡位戰(zhàn)開啟:
OpenAI推出Operator的系統(tǒng)級Agent。2026年1月24日,OpenAI正式發(fā)布Operator,OpenAI首席技術(shù)官認(rèn)為“理解世界只是第一步,與之互動才是真正的智能。” Operator基于最新的多模態(tài)模型+強(qiáng)化學(xué)習(xí)技術(shù)。它能像人類一樣看著屏幕,理解網(wǎng)頁結(jié)構(gòu),點(diǎn)擊按鈕,填寫表單,在處理預(yù)訂航班、電商購物等復(fù)雜多步驟任務(wù)時,成功率已達(dá)70%。
微軟推出的是Windows 365 for Agents。一是推出智能體控制平臺Agent 365,幫助用戶管理智能體。二是推出了一個具備記憶用戶偏好和工作流程的智能層Work IQ,可用于預(yù)測用戶行動并推薦智能體應(yīng)用,還支持基于個人特征定制智能體。
與其他家做2C產(chǎn)品不同,Anthropic專注于底層的“Computer Use”能力,也就是計算機(jī)操作能力。它把自己定位為基礎(chǔ)設(shè)施提供商,向全球開發(fā)者出售“讓AI操作電腦”的API。現(xiàn)在很多創(chuàng)業(yè)Agent,底層調(diào)用的都是Claude的能力。
谷歌推出的Project Jarvis,一個直接接管Chrome瀏覽器的超級Agent。它能幫你完成網(wǎng)頁上的操作——訂票、購物、填表。還有在安卓生態(tài),谷歌正在將Gemini Nano植入安卓底層。邏輯是只要守住谷歌瀏覽器和安卓入口,就守住了Agent時代的必要通道。
還有馬斯克的Grok,未來可能演變成驅(qū)動物理世界的Agent平臺。馬斯克正在把Grok裝進(jìn)特斯拉汽車和Optimus機(jī)器人里。當(dāng)其他Agent還在幫你操作電腦時,Grok可能已經(jīng)操控Optimus幫用戶倒咖啡了,這是這場Agent競賽中最大的變量。
國內(nèi)大廠也紛紛布局Agent領(lǐng)域。
字節(jié)將重心放在平臺化工具“扣子空間”上,強(qiáng)調(diào)將各行各業(yè)的專業(yè)知識封裝成可復(fù)用的Agent Skills。其核心目標(biāo)是構(gòu)建一個技能生態(tài)市場,讓開發(fā)者和企業(yè)來創(chuàng)造價值。這有點(diǎn)像是為未來的“AI應(yīng)用商店”做準(zhǔn)備。此外,字節(jié)和中興通訊合作推出豆包手機(jī),試圖在手機(jī)操作層面基于Agent權(quán)限,但是迅速被微信、淘寶等軟件反制。
阿里的優(yōu)勢在于其龐大且成熟的商業(yè)與生活服務(wù)生態(tài)。阿里千問App的策略是將自身打造成一個智能調(diào)度中樞,通過AI直接調(diào)用和串聯(lián)淘系電商、本地生活、支付、出行等后端服務(wù)。這是最直接、最能體現(xiàn)Agent“幫你辦事”價值的路徑,但其服務(wù)范圍深度綁定阿里生態(tài)。
百度結(jié)合其百度網(wǎng)盤、和百度文庫的既有優(yōu)勢,將智能體定位為“超級個人助手”。其關(guān)鍵在于利用GenFlow的記憶中心和調(diào)度能力,深度結(jié)合用戶的個人數(shù)據(jù)和習(xí)慣,提供高度個性化的服務(wù)。這條路避開了與電商和生活服務(wù)的正面競爭,專注于個人知識管理與生產(chǎn)力提升。
![]()
3、技術(shù)趨勢:AI Agent的標(biāo)準(zhǔn)之爭,MCP與A2A是硅基世界的“書同文,車同軌”
AI Agent雖然強(qiáng)大,但如果它不能順暢地調(diào)用外部工具,它就只是一個聰明的啞巴。過去,讓AI接入一個工具,比如日歷或地圖,開發(fā)者要寫專門的代碼,像是一把鑰匙開一把鎖,效率極低。現(xiàn)在,行業(yè)正在發(fā)生一場決定性的革命——協(xié)議標(biāo)準(zhǔn)化。這是AI時代的“書同文,車同軌”、統(tǒng)一度量衡。
第一大技術(shù)趨勢是,MCP協(xié)議。這是AI時代的Type-C接口,實(shí)現(xiàn)即插即用。Type-C接口出現(xiàn)之前,我們出門要帶好幾根線,甚至不同品牌的手機(jī)充電器都不通用,這是極大的資源浪費(fèi)。AI開發(fā)也一樣,過去每個APP的接口都不一樣。
2024年底,Anthropic提出了MCP協(xié)議,就是Model Context Protocol,終結(jié)了混亂,它就是AI世界的Type-C接口。有了MCP,大模型與外部工具之間建立了一套通用語言。開發(fā)者不需要再為每個工具重復(fù)造輪子。只要你的日歷、地圖、支付等支持MCP,任何大模型都能像插U盤一樣,即插即用,秒級調(diào)用。
![]()
雖然由 Anthropic 發(fā)起,但MCP被設(shè)計為一個開放標(biāo)準(zhǔn)。至2026年初,MCP已成為行業(yè)通用的連接標(biāo)準(zhǔn)。MCP已正式加入Linux基金會旗下的Agentic AI Foundation (AAIF),由社區(qū)共同治理,以確保其透明度和中立性。不僅是 Anthropic的Claude,OpenAI、Google DeepMind等主要 AI以及 Cloudflare、GitHub 等技術(shù)巨頭均已支持該協(xié)議,MCP已演變?yōu)锳I資源連接的通用方法。開發(fā)者的魔搭社區(qū)上迅速涌現(xiàn)了近幾千個MCP服務(wù),這意味著,AI Agent瞬間擁有了幾千種新技能。
![]()
![]()
一個實(shí)際使用案例:過去企業(yè)的產(chǎn)品文檔可能寫在Notion里,開發(fā)進(jìn)度跑在Linear里,代碼存在GitHub上,這三個系統(tǒng)是割裂的,員工每天要在三個之間來回跳轉(zhuǎn)。現(xiàn)在,用Claude為核心的MCP生態(tài)已經(jīng)徹底打通了這一切。 只需要在Claud里配置好Notion和Linear的MCP Server,Claude就能像穿針引線一樣,讀完Notion的需求文檔,自動去Linear創(chuàng)建任務(wù)卡片,并去GitHub拉取代碼。對于硅谷的科技公司來說,MCP極大提升了AI Agent的效率。
另外一個案例:Coinbase推出了基于此技術(shù)的Agent Wallet智能體錢包,這意味著Agent不僅能幫你訂票,還能直接調(diào)用加密錢包或信用卡接口,用USDC或美元完成支付。
國內(nèi)支付寶、高德地圖這些常用的應(yīng)用,紛紛推出官方的MCP Server。此外,百度文庫、百度網(wǎng)盤、百度地圖等應(yīng)用也對外提供MCP Server服務(wù)。
第二大技術(shù)趨勢是,A2A協(xié)議。
谷歌在2025年4月提出的A2A(Agent-to-Agent)協(xié)議,解決了“機(jī)機(jī)交互”的協(xié)作問題。 未來的互聯(lián)網(wǎng),不再是APP的群島,而是Agent的聯(lián)盟。通過A2A協(xié)議,我們的旅行助理Agent可以直接跟航空公司的訂票Agent對話,跟酒店的客服Agent砍價。它們之間不需要人類傳話,直接在后臺通過標(biāo)準(zhǔn)協(xié)議完成商業(yè)博弈。
這兩大協(xié)議的建立,標(biāo)志著Agent AI正式邁入了標(biāo)準(zhǔn)化時代。
![]()
![]()
4、未來展望:Agent落地的最大難點(diǎn)是什么?如何克服?
Agent落地的最大難點(diǎn),其實(shí)不僅是技術(shù),還有利益。 Agent試圖建立一套新的交互范式:用戶只對Agent下令,Agent直接調(diào)度所有APP。這聽起來很美好,但Agent動了所有互聯(lián)網(wǎng)巨頭的蛋糕——它試圖繞過APP的界面,直接用其底層服務(wù)。這意味著:廣告沒了、用戶停留時長沒了、精準(zhǔn)營銷失效了。
因此,Agent和軟件平臺之間就有了激烈的競爭關(guān)系,關(guān)乎數(shù)據(jù)、流量和用戶入口控制權(quán)。未來大家選擇Agent還是APP?這是一次數(shù)字世界的權(quán)力重構(gòu)。APP們正在捍衛(wèi)自己的主權(quán)。
2025年12月,字節(jié)跳動與中興推出搭載豆包手機(jī)助手的努比亞M153,這款手機(jī)試圖在操作系統(tǒng)層面直接布局Agent,通過讀取屏幕和模擬點(diǎn)擊,繞過API,直接操控APP。理想情況下,用戶只需說一句“幫我訂去高鐵和接站的網(wǎng)約車”,豆包助手就能像真人一樣,自動打開12306和打車軟件,行云流水地完成搜索、比價、下單。3000臺樣機(jī)瞬間售罄,市場為之沸騰。但僅僅幾天后,這場技術(shù)狂歡就被現(xiàn)實(shí)生態(tài)打破。微信提示“登錄環(huán)境異常”,強(qiáng)制下線,淘寶和閑魚瘋狂彈出滑動驗證,拒絕AI訪問。銀行APP判定環(huán)境高風(fēng)險,中止支付。一時間,這臺Agent手機(jī)的核心功能幾乎寸步難行。在沒有達(dá)成利益共識之前,通用Agent,或許會被現(xiàn)實(shí)撞得頭破血流。
這就是為什么字節(jié)和阿里同樣布局Agent,卻有不一樣的表現(xiàn)。因為字節(jié)手機(jī)沖擊了跨廠商的各類APP,而相比之下,阿里千問依托阿里自有生態(tài),接入淘寶、支付寶、淘寶閃購、飛豬、高德等業(yè)務(wù),其本質(zhì)是將集團(tuán)內(nèi)部分散的業(yè)務(wù)入口,通過AI Agent重構(gòu)為一個統(tǒng)一、高效、更智能的AI新入口,不直接沖擊到第三方廠商的利益。
展望未來,Agent的落地,遠(yuǎn)非單純的技術(shù)模型競爭,更是生態(tài)整合、商業(yè)協(xié)議設(shè)計、復(fù)雜利益協(xié)調(diào)的考量。
一種可能的解法是:“Service-as-an-API”,也就是服務(wù)即接口模式的誕生。比如未來的App們主動推出“Agent專用付費(fèi)接口”。當(dāng)平臺型Agent助手調(diào)用時,每達(dá)成一筆交易,會向Agent收取一筆更高比例的技術(shù)服務(wù)費(fèi),類似現(xiàn)在的“蘋果稅”,未來叫“Agent稅”。當(dāng)然,這樣一來,APP或許會退化為純粹的服務(wù)供應(yīng)商,不再追求用戶時長,轉(zhuǎn)而追求單位時間內(nèi)的交易并發(fā)量。未來世界的商業(yè)邏輯和流量的邏輯變了,誰能高效服務(wù)Agent,誰就能賺錢。
2月5日(周四)晚七點(diǎn),我將跟大家聊聊AI新趨勢。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.