![]()
Agent 大戰,誰也等不起。
作者|樺林舞王
編輯|靖宇
2025 年底,一個奧地利開發者 Peter Steinberger 用一個小時寫了個 Agent 工具,最初叫 Clawdbot,名字蹭了 Claude 的邊。Anthropic 發律師函威脅法律行動,Steinberger 被迫改名,先改成 Moltbot,后來又改成 OpenClaw。
這本來是一件小事。
但 OpenClaw 隨后爆了。GitHub 上狂飆到 17 萬星,單周訪問量破 200 萬,成了有史以來增長最快的開源 Agent 項目之一。更關鍵的是,它默認推薦用 Claude 模型跑任務——某種程度上,它是 Anthropic 最大的免費流量入口之一。
然后 Anthropic 做了一件蠢事:開始封禁那些把 Claude API 接入 OpenClaw 的用戶賬號。
社區炸了。
![]()
Vercept 的產品讓 AI 可以讓 AI 控制電腦|圖片來源:Vercept
「用自己花錢買的 API 做自動化,被封號」,這個操作讓 AI 圈對 Anthropic 的輿論在一夜之間翻轉。Steinberger 本人也徹底涼了對 Anthropic 的心。
2026 年 2 月 15 日,Sam Altman 宣布:Peter Steinberger 加入 OpenAI,負責下一代個人 Agent。
11 天后,Anthropic 宣布收購 Vercept。
媒體的第一反應大多是:「又一家創業公司被大廠收購了。」
但這兩件事放在一起看,說的是同一件事:AI 的戰場正在發生一次非常具體的遷移——從「誰的模型更聰明」,到「誰能讓 AI 真正控制一臺電腦」。
而在這場遷移里,Anthropic 目前處于被動追趕的位置,部分原因是它自己造成的。
01
屏幕,真正的「最后一公里」
過去幾年,AI 的能力突破大多發生在對話框里——你打字,它回答,精準、流暢、越來越快。但有一件事始終沒變:你依然得親自打開軟件、點擊按鈕、復制粘貼,然后再回來問 AI 下一步怎么做。
這就是 Agent 要解決的問題。
Agent 不是讓 AI 更聰明地回答你,而是讓 AI 直接替你干活:幫你打開 Excel、填好表格、切換到郵件客戶端、把數據發出去,然后關掉窗口。整個過程,你只需要說一句話。
問題在于,要做到這一步,AI 必須先「看懂」你的屏幕——識別出每一個按鈕、輸入框、菜單,然后像人一樣去點它。
這件事聽起來簡單,實際上極難。
一個有意思的現象是,在 AI 寫代碼、做分析、生成報告這些領域,各家的差距已經越來越小。但在「看屏幕、控電腦」這件事上,差距依然是代差級別的。
OpenAI 自己的 Operator,在 OSWorld(模擬真實電腦操作任務的基準測試)上得分是 38.1%。Anthropic 的 Computer Use,只有 22%。而人類平均水平是 72.4%——對,AI 做這件事,目前還遠不如普通人順手。
02
Vercept 為什么值得?
這就是 Vercept 被盯上的原因。
Vercept 的創始團隊來自 Allen 人工智能研究所(Ai2),幾個人在機器人感知、計算機視覺、強化學習領域都有深厚積累。
Vercept 團隊做的 Vy,走的是一條和 OpenAI 完全不同的技術路線。
Operator 的邏輯是「讀代碼」:通過解析網頁底層 DOM 結構(文檔對象模型),理解界面有哪些元素可以交互。這種方式速度快、穩定性好,但有一個硬傷——它只對有結構的 web 界面有效。碰到本地軟件、老系統、沒有 API 的企業應用,它就完全沒轍。
Vy 的邏輯是「看像素」:不斷截圖,用視覺模型理解屏幕上的所有內容,再模擬鼠標鍵盤操作。覆蓋范圍是任何有屏幕的軟件——不管是 Excel、本地 ERP,還是一個 20 年前開發的企業內網系統。
Vercept 介紹視頻|視頻來源:Vercept
Vercept 公布過一組數據:在 UI 元素識別基準測試 ScreenSpot v1 上,他們自研的 VyUI 模型準確率是 92%,OpenAI 同類模型是 18.3%。ScreenSpot v2 上是 94.7% 對 87.9%。
這個差距不是「我們優化得更好」,而是底層技術路線帶來的系統性優勢。
正是這個東西,補了 Anthropic 的短板。
Claude 的 Computer Use 能用,但一直不夠驚艷。吸收 Vercept 的模型和團隊,是 Anthropic 在「看屏幕」這件事上最快的提速方式。
03
OpenAI 在搶的,
是另一個入口
OpenAI 合并的 OpenClaw 是另一回事,但同樣關鍵。
Peter Steinberger 做的 OpenClaw,不是桌面 Agent,而是把 AI 操控能力接入 WhatsApp、Telegram 這類消息平臺——你在手機上發一條消息,它幫你在電腦上完成一個任務。
這條路解決的不是「AI 怎么看屏幕」,而是「用戶從哪里發指令」。
這個細節很重要。大多數人不會專門打開一個 Agent 界面來操作電腦,但每天都在用消息 App。把指令入口放進消息 App,是讓 Agent 真正融入日常使用習慣的關鍵一步。
OpenAI 收人而不是收公司,搶的就是這個方向的工程能力和產品直覺。
所以這兩筆「收購」,針對的是 Agent 版圖的不同層次:Anthropic 在補「屏幕感知」的技術短板,OpenAI 在布局「指令入口」的場景卡位。
一個是基礎設施,一個是用戶習慣,缺哪個都不行。
更大的背景是,這場戰爭等不起。
Google、Microsoft 早就在布局,UiPath 這類 RPA(機器人流程自動化)公司的股價在 Anthropic 收購 Vercept 的消息發出后下跌了 3.6%——市場已經嗅到了威脅。
Agent 時代的競爭,本質上是一場基礎設施的搶占。誰先把「AI 控制電腦」這件事做到足夠好用,誰就在未來幾年的企業和個人市場里握有真正的籌碼。
Vercept 聯合創始人兼早期投資者 Oren Etzioni 說了一句挺直白的話:「我們基本上還是認輸了。」
但認輸的原因,不是技術不好——他們的技術在某些維度上領先全場。認輸的原因,是這場戰爭燒的錢和資源,不是一家 20 人的初創公司能撐起來的。
這大概也是 AI Agent 這個賽道最無情的地方:
好技術不夠,還得有足夠大的容器來裝它。
*頭圖來源:ProductHunt
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO
極客一問
你認為 Vercept 的技術,
和豆包手機有什么區別?
![]()
蘋果宣布 Mac mini,首度實現美國本土化生產。
點贊關注極客公園視頻號,

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.