![]()
文:任澤平團隊
比爾蓋茨曾斷言 “Agent將是未來計算機交互史上最大的革命”。如果說ChatGPT等生成式AI是博學的軍師,AI Agent將是最有力的執行者。它不再是一個AI聊天框,而是擁有了“數字手腳”,能直接操控App和瀏覽器、鼠標和鍵盤,替你直接一鍵到底的完成復雜工作,采購、訂票、報銷……正如英偉達黃仁勛所言,我們正在跨越生成式AI,邁向AI Agent的新紀元。
這場革命的核心在于行動力。Agent不再局限于生成文本,而是通過“大腦規劃+工具調用+記憶經驗”,接管了數字世界的繁瑣流程。你只需定義目標,AI Agent會自動拆解步驟、穿透各應用,幫你把事辦成。無論是OpenAI發布的Operator、還是谷歌Jarvis接管Chrome、微軟推出的Windows 365 for Agents,大廠們正掀起一場關于超級入口的卡位戰。中國企業Manus與Meta的天價收購傳聞,更是引爆了這場Agent軍備競賽。
然而,Agent若要成為新基建,必須解決“書同文,車同軌”的標準問題。MCP協議應運而生,作為AI時代的“Type-C接口”,它讓大模型能像插U盤一樣即插即用;配合谷歌提出的A2A協議,硅基世界正在形成一個互聯互通的AI Agent聯盟。
但落地的最大阻礙并不僅是技術,還有利益重構。字節的豆包手機遭遇的生態圍剿,這就是AI Agent和App之間的利益矛盾體現。這是一場關于AI時代的流量、數據與入口主權之戰。未來,AI Agent將重塑流量世界、過去互聯網時代的很多商業模式將被改寫。
1、什么是AI Agent:它讓未來生活發生哪些改變?
首先,我們要明白,什么是AI Agent?簡單來說,如果之前的ChatGPT、Deepseek是AI軍師,負責幫你出主意、跟你對話;那Agent就是執行官,它不僅有腦子,還長出了“手”和“腳”,能真正用自動化的AI能力幫你把事情辦好。
AI Agent到底有多強?看看這些正在發生的例子:
比如,阿里通義千問AI,里面聚合了生活服務Agent:你只需要對它說一句“幫我點杯拿鐵”,它就能自己打開淘寶閃購,選好店、下好單,甚至能利用你的歷史偏好決定加不加糖。它不再是給你返回一堆文字鏈接,而是直接交付一個下單成功的結果。
2025年末推出的第一代豆包手機,這是系統級Agent:在豆包的手機終端里,AI擁有了跨APP的權限。你想訂票、發微信、查地圖,理論上是不需要在一個個APP之間來回跳轉。你下達指令,Agent就在后臺自動調度各個APP幫你完成,APP之間的墻被推倒了。
再比如瀏覽器Agent,Google推出的Jarvis,可以直接接管你的Chrome瀏覽器。如果想訂一張機票,它能自動打開網頁、搜索航班、比價、甚至填寫乘客信息,幫你搞定所有繁瑣的網頁操作。
如果說生成式AI比如ChatGPT、DeepSeek是讓我們看到AI的“博學”,那么代理式AI Agent則讓我們看到AI的“能干”。這是AI發展的新浪潮,也是AI能真正未來普惠每一個人的超級應用。
在2025年的GTC大會上,黃仁勛提出了著名的AI四階段論:第一個階段是讓機器能聽能看的“感知AI”,第二階段是能寫詩作畫的“生成式AI”,現在我們正跨入第三階段——“代理式AI”,這就是Agent,而終局則是“具身智能AI”。
![]()
按OpenAI的定義,Agent是具備高度獨立性、能代表用戶使用工具完成任務的系統,它的核心區別在于“行動力”,不再是一個只會陪你聊天的“大腦”,而是長出了“手腳”。生成式AI生成的是內容,而Agent生成的是行動。
Claude認為:Agent是大模型學會了使用工具,能夠動態規劃流程,獨立完成任務。
比爾蓋茨更是斷言:Agent將是繼Windows之后,計算機交互史上最大的革命,它將徹底改變由于APP造成的數據孤島。
![]()
AI Agent是從“對話AI”到“干活AI”的本質躍遷,Agent工作過程分為三個階段:
1、大腦+規劃:它能像人類一樣運用思維鏈,把一個復雜目標,比如如“幫我策劃并預定一次旅行”拆解為查機票、比價、訂酒店、做攻略等一連串步驟。在任務后,還能反思與自我批判,完成“規劃-行動后反思-優化”的循環。
2、手腳+工具:它不再局限于生成文本,而是能調用外部工具,比如它能打開瀏覽器搜索最新信息,能調用計算器算賬,能調用代碼解釋器跑程序,甚至能直接操控你的日歷和訂票系統。
3、記憶+經驗:Agent有長期記憶,長期記憶負責存儲那些需要跨任務、跨會話持久化保存的信息,例如用戶的基本信息、偏好、過往的重要交互記錄,以及Agent從任務中總結出的知識和經驗等;Agent還有短期記憶,能記住當前的任務進度。因此能夠相互參考作出對用戶最有利的抉擇。
未來的世界,當Agent接管一切,每個人都將擁有一個乃至一支Agent團隊。Agent將AI裝進負責的操作系統和軟件里,接管數字世界的繁瑣流程。用戶不再需要學習如何使用復雜的軟件,你只需要告訴你的Agent:“幫我搞定這件事”。
未來的可能的三大改變:
第一個構想是,APP后臺化、部分App會消失、APP的流量廣告等商業模式面臨重構。在未來有了Agent,手機屏幕上可能不再有密密麻麻的圖標,打車時不需要尋找滴滴、Uber,直接告訴Agent要去哪里,約什么類型的車, Agent會在后臺瞬間喚醒各個出行APP的接口,自動完成比價、下單、支付。APP不再是爭奪你注意力的前臺,而退化為提供服務能力的后臺,現在App們的商業模式也將面臨改變。
第二構想是,Agent替代傳統操作系統、操作系統擬人化。未來的操作系統不再是冷冰冰的,而是一個全知全能的硅基管家。系統讀得懂你的一切。早上Agent根據你的日程和路況,自動調整了鬧鐘,并讓咖啡機提前準備好。工作時候它監測到你在寫的內容,自動從后臺數據庫里調取了數據,幫你做好圖表。Agent還能記住了朋友的生日,自動在鮮花電商下單。人不再用去學習怎么點擊系統,而是完全的系統服務于人,Agent來猜你的意圖。
第三個構想是,人類角色的終極轉變。當Agent能以高成功率搞定所有時,人類的價值將被重新定義。 我們不再需要做PPT美化、不需要親自比價……人類唯一剩下的工作就是決策和審美。人類需要告訴Agent做什么,并判斷它做出的結果好不好。 這是一個超級個體的時代:一個人,加上一支不知疲倦的Agent團隊,其生產力將超過過去的一家公司。
![]()
2、行業格局:Manus掀起“鯰魚效應”,引爆Agent卡位戰
2026年初,全球科技圈最大的新聞是Meta擬以數百億美元天價收購Manus。
為什么扎克伯格要買?Meta也焦慮了。Meta擁有大模型Llama,但缺乏一個能直接觸達用戶、替用戶解決復雜任務的超級入口。Manus展現出的通用任務規劃能力,恰恰是Meta的AI 拼圖中缺失的最關鍵一環。這證明了中國AI企業在產品力、工程化能力上,已經具備了全球競爭力。
Manus的爆火和Meta的動作,代表一場針對AI Agent的卡位戰開啟:
OpenAI推出Operator的系統級Agent。2026年1月24日,OpenAI正式發布Operator,OpenAI首席技術官認為“理解世界只是第一步,與之互動才是真正的智能。” Operator基于最新的多模態模型+強化學習技術。它能像人類一樣看著屏幕,理解網頁結構,點擊按鈕,填寫表單,在處理預訂航班、電商購物等復雜多步驟任務時,成功率已達70%。
微軟推出的是Windows 365 for Agents。一是推出智能體控制平臺Agent 365,幫助用戶管理智能體。二是推出了一個具備記憶用戶偏好和工作流程的智能層Work IQ,可用于預測用戶行動并推薦智能體應用,還支持基于個人特征定制智能體。
與其他家做2C產品不同,Anthropic專注于底層的“Computer Use”能力,也就是計算機操作能力。它把自己定位為基礎設施提供商,向全球開發者出售“讓AI操作電腦”的API。現在很多創業Agent,底層調用的都是Claude的能力。
谷歌推出的Project Jarvis,一個直接接管Chrome瀏覽器的超級Agent。它能幫你完成網頁上的操作——訂票、購物、填表。還有在安卓生態,谷歌正在將Gemini Nano植入安卓底層。邏輯是只要守住谷歌瀏覽器和安卓入口,就守住了Agent時代的必要通道。
還有馬斯克的Grok,未來可能演變成驅動物理世界的Agent平臺。馬斯克正在把Grok裝進特斯拉汽車和Optimus機器人里。當其他Agent還在幫你操作電腦時,Grok可能已經操控Optimus幫用戶倒咖啡了,這是這場Agent競賽中最大的變量。
國內大廠也紛紛布局Agent領域。
字節將重心放在平臺化工具“扣子空間”上,強調將各行各業的專業知識封裝成可復用的Agent Skills。其核心目標是構建一個技能生態市場,讓開發者和企業來創造價值。這有點像是為未來的“AI應用商店”做準備。此外,字節和中興通訊合作推出豆包手機,試圖在手機操作層面基于Agent權限,但是迅速被微信、淘寶等軟件反制。
阿里的優勢在于其龐大且成熟的商業與生活服務生態。阿里千問App的策略是將自身打造成一個智能調度中樞,通過AI直接調用和串聯淘系電商、本地生活、支付、出行等后端服務。這是最直接、最能體現Agent“幫你辦事”價值的路徑,但其服務范圍深度綁定阿里生態。
百度結合其百度網盤、和百度文庫的既有優勢,將智能體定位為“超級個人助手”。其關鍵在于利用GenFlow的記憶中心和調度能力,深度結合用戶的個人數據和習慣,提供高度個性化的服務。這條路避開了與電商和生活服務的正面競爭,專注于個人知識管理與生產力提升。
![]()
3、技術趨勢:AI Agent的標準之爭,MCP與A2A是硅基世界的“書同文,車同軌”
AI Agent雖然強大,但如果它不能順暢地調用外部工具,它就只是一個聰明的啞巴。過去,讓AI接入一個工具,比如日歷或地圖,開發者要寫專門的代碼,像是一把鑰匙開一把鎖,效率極低。現在,行業正在發生一場決定性的革命——協議標準化。這是AI時代的“書同文,車同軌”、統一度量衡。
第一大技術趨勢是,MCP協議。這是AI時代的Type-C接口,實現即插即用。Type-C接口出現之前,我們出門要帶好幾根線,甚至不同品牌的手機充電器都不通用,這是極大的資源浪費。AI開發也一樣,過去每個APP的接口都不一樣。
2024年底,Anthropic提出了MCP協議,就是Model Context Protocol,終結了混亂,它就是AI世界的Type-C接口。有了MCP,大模型與外部工具之間建立了一套通用語言。開發者不需要再為每個工具重復造輪子。只要你的日歷、地圖、支付等支持MCP,任何大模型都能像插U盤一樣,即插即用,秒級調用。
![]()
雖然由 Anthropic 發起,但MCP被設計為一個開放標準。至2026年初,MCP已成為行業通用的連接標準。MCP已正式加入Linux基金會旗下的Agentic AI Foundation (AAIF),由社區共同治理,以確保其透明度和中立性。不僅是 Anthropic的Claude,OpenAI、Google DeepMind等主要 AI以及 Cloudflare、GitHub 等技術巨頭均已支持該協議,MCP已演變為AI資源連接的通用方法。開發者的魔搭社區上迅速涌現了近幾千個MCP服務,這意味著,AI Agent瞬間擁有了幾千種新技能。
![]()
![]()
一個實際使用案例:過去企業的產品文檔可能寫在Notion里,開發進度跑在Linear里,代碼存在GitHub上,這三個系統是割裂的,員工每天要在三個之間來回跳轉。現在,用Claude為核心的MCP生態已經徹底打通了這一切。 只需要在Claud里配置好Notion和Linear的MCP Server,Claude就能像穿針引線一樣,讀完Notion的需求文檔,自動去Linear創建任務卡片,并去GitHub拉取代碼。對于硅谷的科技公司來說,MCP極大提升了AI Agent的效率。
另外一個案例:Coinbase推出了基于此技術的Agent Wallet智能體錢包,這意味著Agent不僅能幫你訂票,還能直接調用加密錢包或信用卡接口,用USDC或美元完成支付。
國內支付寶、高德地圖這些常用的應用,紛紛推出官方的MCP Server。此外,百度文庫、百度網盤、百度地圖等應用也對外提供MCP Server服務。
第二大技術趨勢是,A2A協議。
谷歌在2025年4月提出的A2A(Agent-to-Agent)協議,解決了“機機交互”的協作問題。 未來的互聯網,不再是APP的群島,而是Agent的聯盟。通過A2A協議,我們的旅行助理Agent可以直接跟航空公司的訂票Agent對話,跟酒店的客服Agent砍價。它們之間不需要人類傳話,直接在后臺通過標準協議完成商業博弈。
這兩大協議的建立,標志著Agent AI正式邁入了標準化時代。
![]()
![]()
4、未來展望:Agent落地的最大難點是什么?如何克服?
Agent落地的最大難點,其實不僅是技術,還有利益。 Agent試圖建立一套新的交互范式:用戶只對Agent下令,Agent直接調度所有APP。這聽起來很美好,但Agent動了所有互聯網巨頭的蛋糕——它試圖繞過APP的界面,直接用其底層服務。這意味著:廣告沒了、用戶停留時長沒了、精準營銷失效了。
因此,Agent和軟件平臺之間就有了激烈的競爭關系,關乎數據、流量和用戶入口控制權。未來大家選擇Agent還是APP?這是一次數字世界的權力重構。APP們正在捍衛自己的主權。
2025年12月,字節跳動與中興推出搭載豆包手機助手的努比亞M153,這款手機試圖在操作系統層面直接布局Agent,通過讀取屏幕和模擬點擊,繞過API,直接操控APP。理想情況下,用戶只需說一句“幫我訂去高鐵和接站的網約車”,豆包助手就能像真人一樣,自動打開12306和打車軟件,行云流水地完成搜索、比價、下單。3000臺樣機瞬間售罄,市場為之沸騰。但僅僅幾天后,這場技術狂歡就被現實生態打破。微信提示“登錄環境異常”,強制下線,淘寶和閑魚瘋狂彈出滑動驗證,拒絕AI訪問。銀行APP判定環境高風險,中止支付。一時間,這臺Agent手機的核心功能幾乎寸步難行。在沒有達成利益共識之前,通用Agent,或許會被現實撞得頭破血流。
這就是為什么字節和阿里同樣布局Agent,卻有不一樣的表現。因為字節手機沖擊了跨廠商的各類APP,而相比之下,阿里千問依托阿里自有生態,接入淘寶、支付寶、淘寶閃購、飛豬、高德等業務,其本質是將集團內部分散的業務入口,通過AI Agent重構為一個統一、高效、更智能的AI新入口,不直接沖擊到第三方廠商的利益。
展望未來,Agent的落地,遠非單純的技術模型競爭,更是生態整合、商業協議設計、復雜利益協調的考量。
一種可能的解法是:“Service-as-an-API”,也就是服務即接口模式的誕生。比如未來的App們主動推出“Agent專用付費接口”。當平臺型Agent助手調用時,每達成一筆交易,會向Agent收取一筆更高比例的技術服務費,類似現在的“蘋果稅”,未來叫“Agent稅”。當然,這樣一來,APP或許會退化為純粹的服務供應商,不再追求用戶時長,轉而追求單位時間內的交易并發量。未來世界的商業邏輯和流量的邏輯變了,誰能高效服務Agent,誰就能賺錢。
2月5日(周四)晚七點,我將跟大家聊聊AI新趨勢。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.