![]()
新智元報道
編輯:桃子 好困
【新智元導讀】終于,AI不用裝得像個人了。谷歌Chrome重磅上線WebMCP。從此,Agent不用瘋狂截屏,直連內核完成任務,AI與網頁交互的底層邏輯正在重構。
今天,谷歌Chrome團隊投下了一枚深水炸彈:WebMCP(Web模型上下文協議)正式登場。
它可以讓AI智能體跳過「人類用戶界面」,直接與現有的網站和Web應用深度交互。
![]()
在Chrome 146的早期預覽版中,開啟特定flag即可體驗WebMCP
這相當于給Agent加上了「超能力」,從此不用再「裝得像個人一樣」,去看網頁、找按鈕,或是點鏈接。
僅通過一個API:navigator.modelContext,AI便可繞過圖形界面,直接與Web應用服務的內核對話。
假設想要訂一張機票,Agent不用在屏幕上點擊,而會直接通過底層協議,向航空公司網站發送命令,直接獲取結果。
用開發者Alex Volkov的話來說,「WebMCP就相當于UI里的API」。
![]()
可以說,WebMCP的誕生,釋放了一個極其明確的信號——
AI Agent與網頁交互的底層邏輯,正迎來一場徹底的重塑。
它實現了從「視覺模擬」到「邏輯直連」的躍遷,正讓傳統的Web交互范式徹底走向終結。
![]()
![]()
WebMCP震撼登場
掀起Agent交互革命
或許很多人,還沒有意識到WebMCP的重要性。
它的核心在于,改變了Agent獲取服務的方式,讓其直接拿到了網頁的「通天鑰匙」。
過去幾周,全世界都在為爆火的OpenClaw瘋狂,若是未來交互更進一步,說不定又將催生一次大變革。
![]()
要知道,如今Agent操作網頁的方式,既笨拙又原始,而現在的集成方式實在是「太拉胯」了。
它們本質上,就是在模擬人類的行為——截屏、識別按鈕的位置、模擬點擊,DOM抓取......
這種方式,存在著明顯的痛點:
成本高昂:一次簡單的搜索,可能需消耗數千token來處理截圖、解析頁面;
穩定性低:網站一旦改版,Agent會因找不到按鈕陷入「癱瘓」;
反饋低效:Agent必須反復「看」屏幕,來確認操作是否成功。
![]()
不再裝個人,降維打擊
如今,有了WebMCP,網站可以直接向AI開放其服務接口。Agent不用經過「前端視覺界面」,直接可以查詢并執行服務。
WebMCP將取代傳統的「屏幕抓取」(screen-scraping),從而實現更穩定、更高效的頁面交互和信息檢索。
誠如網友所言,AI Agent正成為網絡的「一等公民」。
![]()
在谷歌Chrome 146的官博中,為開發者提供了兩套靈活的API接入方式:
聲明性API:執行可直接在HTML表單中定義的標準操作;
命令式API:執行需要JavaScript執行的復雜、更動態的互動。
![]()
這兩種方式,允許開發者為AI提供一套直接的工具集,讓Agent跳過視覺識別,直接訪問網站背后的結構化函數。
此前,谷歌軟件工程師Khushal Sagar在演講中表示,WebMCP目標是成為AI應用領域的USB-C接口。
它不僅是讓智能體替代用戶,更是建立一種協作模式:
用戶、網頁、智能體三者共享界面,共同協作。
智能體專用路徑:開發者在為人類設計UI的同時,為智能體提供結構化的API路徑。

兩大巨頭聯手
要徹底「干掉」前端?
值得一提的是,WebMCP并不是谷歌的獨角戲。
早在25年8月13日,谷歌、微軟開發者聯手,在GitHub上提交了WebMCP這一項目。
![]()
開源項目:https://github.com/webmachinelearning/webmcp
目前,AI智能體通常通過MCP等協議進行后端集成。
但對于Web開發者來說,為了開放網站功能,他們往往得用Python或NodeJS寫一套后端服務器,而不是用他們更熟悉的瀏覽器端JS。
在項目介紹中,WebMCP讓網頁能在UI中提供「智能體專用通道」。
與后端集成不同,WebMCP工具在客戶端執行,只有在智能體加載頁面后才可用。
智能體依然可以像人一樣觀察頁面和模擬操作,但有了工具,它能更直接、高效地達成目標。
![]()
據官方的介紹,以下是WebMCP的三大主要優勢:
代碼復用:直接利用現有的前端代碼;
統一界面:用戶和智能體共用一個界面,簡化了交互時的身份驗證和狀態同步;
無障礙利器:讓輔助技術能執行更高層級的頁面操作,而不僅僅是簡單的點擊。
更進一步說,WebMCP讓用戶和智能體可以在同一個網頁界面里并肩工作,既能利用現有的應用邏輯,又能保持上下文共享和用戶的掌控感。
繞過所有UI,統治網絡
那么,在WebMCP加持下,Agent未來會演變成什么樣?
開發者們提前設想了三大場景,電子商務、旅游出行,以及客戶支持。
首先,未來,我們的購物體驗,或將迎來質變。
一句指令,Agent不再在頁面上反復「翻找」優惠券入口,僅通過WebMCP函數調用,實現秒級下單。
它可以輕松找到產品、配置特定的購物選項,完成結賬全流程。
在旅游出行方面,Agent還可以成為更精準的預訂專家,使用結構化數據進行搜索、過濾結果和處理預訂。
![]()
由于避開了混亂的UI干擾,它能確保每次搜索結果的準確性,并直接在后臺完成復雜的行程組合。
此外,WebMCP還可以成為自動化服務的橋梁,讓智能體自動填寫必要的技術細節,以創建詳細的客戶支持服務工單。
上手試過的開發者驚嘆,立即發現了WebMCP兩大好處。
![]()
分層Web時代來臨
一半給AI用
開發者大佬Nikoloz Turazashvili最新一文,深度解釋了WebMCP的出現對于開發意味著什么。
![]()
如果你看過AI Agent像無頭蒼蠅一樣使用網站——瞎猜哪個按鈕是結賬,或者糾結乘客姓名該填在哪個框里……
實際上,你已經抓住核心痛點了:
現在的Web UI是給人看的,但智能體需要的是「結構」。
這恰恰是WebMCP想要解決的問題。如前所述,它是一個擬議中的Web標準,允許網站直接向瀏覽器內的Agent暴露結構化的工具。
這樣一來,智能體就能調用真正的函數(帶有Schema),而不是去暴力爬取頁面,然后祈禱DOM結構沒有改變。
因此,可以把它想象成「內置在瀏覽器標簽頁里的MCP」。
![]()
WebMCP的核心思路,便是發布工具,別光給像素。
與其讓Agent去瞎猜一個按鈕是干嘛的,不如在搭建的網站明確發布一份契約:
Discovery(發現):這個頁面上有哪些工具(
checkout,filter_results等)JSONSchemas:輸入/輸出具體長什么樣(以此減少幻覺)
State(狀態):對頁面上當前可用內容的共識
這就把「到處亂點直到碰巧蒙對」變成了:直接調用book_flight({ origin, destination, outboundDate… })。
WebMCP基本上是在說——如果智能體要在瀏覽器肚子里運行,瀏覽器就得提供這種握手機制。
而且從產品角度看,這也是控制權的轉移:網站自己定義了允許哪些操作,以及數據該怎么傳。
如果WebMCP真的成為標準落地,主流瀏覽器開始原生支持這種結構化交互,未來的互聯網或許分化為兩層:
給人類用的UI:視覺美感、品牌敘事
給Agent用的工具界面:結構化數據、極速響應
而最終贏家不會是那些界面最花哨的——而是那些擁有最清晰工具契約的App。
這一切,預示著「Agentic UI」時代的到來。
未來的網頁將不再僅僅是給「人」看的展示窗,還是能與AI無縫銜接的自動化服務節點。
WebMCP的出現,無疑加速了從「手動搜索」到「智能體自動執行」的互聯網范式轉移。
參考資料:
https://developer.chrome.com/blog/webmcp-epp?hl=zh-cn
https://x.com/nomad_remy/status/2021307801990201412?s=20
https://dev.to/axrisi/chromes-webmcp-early-preview-the-end-of-ai-agents-clicking-buttons-b6e
https://www.youtube.com/watch?v=p1l8nkQAoUw
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.