![]()
表面上人們在“養(yǎng)龍蝦”,水面之下,一場硬戰(zhàn)正圍繞底層AI Infra打響。
文|趙艷秋
編|牛慧
“龍蝦(OpenClaw)”正在成為當下最火的現(xiàn)象級關鍵詞。短短一個多月內,微信指數(shù)從1月29日的0飆升至3月10日的1.656億,熱度幾乎呈爆發(fā)式增長。截至3月20日,OpenClaw在GitHub上已收獲32.5萬顆星,登頂平臺第一。與此同時,奇安信報告顯示,全球每日新增部署實例從5000躍升至9萬,增長高達18倍;其中,美國和中國成為最主要的兩大陣地,合計占比超過65%。
從技術圈到大眾生活,“養(yǎng)龍蝦”正迅速出圈——上至七旬老人,下至孩童,都在加入這場全民熱潮。
![]()
數(shù)據(jù)來源:奇安信報告
各大廠紛紛“下水斗法”,推出各種Claw,甚至不止一個。云端部署、本地部署、在線托管…...各種版本層出不窮。政務單位、科研院所也隨即推出自家Claw——深圳福田區(qū)政務Claw、北京移動運維Claw、清華大學教學Claw,應用類型極廣。
各大企業(yè)也迅速將自家明星技能封裝為skills,接入開放生態(tài),例如百度搜索skill、宇樹科技人形機器人行走Skill、麥當勞點餐skill......截止3月中旬,GitHub上已有超過2.5萬個skills;在OpenClaw官方技能平臺ClawHub上,skills數(shù)量也接近2.8萬個,其中不乏中國企業(yè)的貢獻,如百度搜索在“搜索引擎類skill”中下載量已位居全球第一。
然而,在這樣的火熱之下,卻隱藏著看不見的硝煙。OpenClaw爆紅背后,一場硬戰(zhàn)正圍繞底層AI Infra打響。
01
一只“龍蝦”,攪動全球Agent生態(tài)
伴隨OpenClaw進入千行百業(yè),更多人意識到,OpenClaw不止是一款走紅的產品,或許是一個時代的拐點,將對Agent的落地產生全方位影響。
其實,在過去兩三年間,Agent落地并不太順利,企業(yè)接受它的框架和邏輯需要一個過程。但OpenClaw的出現(xiàn),提供了一個開源、不限制模型、不限制渠道、全面開放skills(技能)的Agent模式,讓所有行業(yè)迅速達成共識。
人們已經通過OpenClaw解決復雜甚至無人問津的長尾問題。“未來軟件可能變得很碎片化,但解決問題的軟件方案卻變得高度統(tǒng)一,就是通過OpenClaw框架把skills整合起來。”百度集團執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖觀察說,“誰懂業(yè)務、誰能把解決問題的方案變成skills,誰就能在整個生態(tài)中取得最大收益。”
在這樣的發(fā)展態(tài)勢下,曾經移動互聯(lián)網(wǎng)時代各大平臺的“流量孤島”,有望被OpenClaw連成一片大陸。畢竟,所有應用廠商都不敢忽略這個未來的超級入口。
除了軟件,OpenClaw也快速跑入人們使用的各類硬件。小度音箱、宇樹機器人、華為手機、樹莓派、聯(lián)想PC.....這是一個更宏大的視角。OpenClaw有望打破原來硬件間的壁壘,形成更大一統(tǒng)的智能生態(tài)。
也因此,英偉達創(chuàng)始人黃仁勛在本周舉辦的GTC大會上明確表態(tài)“OpenClaw是適用于個人AI的操作系統(tǒng)”,并提出每家公司的CEO都必須思考:“你的OpenClaw戰(zhàn)略是什么?”
顯然,以OpenClaw為代表的Agent已帶我們進入了新時代。
02
“token粉碎機”,源自龍蝦獨特模式
然而,就在這場全民“養(yǎng)蝦”熱快速蔓延的同時,一個現(xiàn)實問題也隨之浮現(xiàn),OpenClaw是名副其實的“Token粉碎機”。
過去近一個月,全球Token調用占比暴增至17%,業(yè)內形容OpenClaw“鯨吞了全球超六分之一的算力”。
為什么OpenClaw會這樣“費token”?這源自它的三大獨特模式:流量全民化、交互智能體化,以及社區(qū)化生態(tài)。
首先是流量全民化,OpenClaw這類智能體的用戶規(guī)模與請求量呈現(xiàn)潮汐式爆發(fā)特點,無固定峰值規(guī)律。
傳統(tǒng)大模型對話“即用即走”,總流量相對平穩(wěn)。而未來人人都可能擁有一個24小時專屬AI助理,當數(shù)以千萬計的用戶同時“養(yǎng)蝦”,原本可預測的流量模型將徹底失效。流量壓力不僅來自更多人,更來自永不休息的機器,像運維Claw,24小時代替人們不間斷地監(jiān)控、排查、調度任務。這些形成的無規(guī)律、全天候、高密度的流量變化相對以往是一種質變。
其次是交互智能體化,單次用戶操作會觸發(fā)多輪思考、工具調用、邏輯校驗,形成請求放大效應。
我們以OpenClaw完成一次任務為例,來了解它背后具體的推理調用鏈路與算力消耗結構。
當用戶向OpenClaw發(fā)出“幫我規(guī)劃這周六帶6歲孩子去上海迪士尼的行程,預算2000元,要避開人流高峰,晚上8點前回到市區(qū)”這一指令時,OpenClaw立即構建了一個龐大的初始輸入——它不僅包含用戶的簡短指令,還加載了Agent預設角色文檔,瀏覽器、命令行、文件讀寫等工具的使用說明,以及過往對話記憶。一次請求中,消耗幾十、上百k的token很正常。
在這個例子中,初始輸入約1.5萬token,驅動大模型完成首輪規(guī)劃推理,將任務拆解為查門票價格、看實時排隊、算交通時間、找餐廳推薦等子目標。
接下來OpenClaw進入ReAct循環(huán)。所謂ReAct是“邊想、邊做、邊反思,不對就改,直到認為達到可交付的水平”,并不是一次調用。
第一輪行動中,模型調用瀏覽器工具抓取迪士尼官網(wǎng)當日排隊數(shù)據(jù),等網(wǎng)絡返回后,系統(tǒng)將網(wǎng)頁內容注入上下文,觸發(fā)第二輪推理:“飛躍地平線項目”排隊120分鐘,建議購買尊享卡或調整游玩順序,隨后再調用計算工具核算是否超支。每一輪“決策-執(zhí)行-反思”都要讓大模型完整算一遍,上下文也隨之不斷膨脹,從初始的1.5萬token迅速增長至3.5萬token以上。
整個任務累計執(zhí)行了8~12次大模型推理,最終輸出數(shù)千token的行程單,總token消耗約30萬。相比之下,傳統(tǒng)大模型只需一次調用、幾百token就能給出“幾個迪士尼攻略”。簡言之,以前大模型是“按次調用“,現(xiàn)在的OpenClaw是“按流程調用”,其“動手能力”讓Token消耗放大至少幾十到上百倍。
![]()
實際上黃仁勛曾透露,以OpenClaw為代表的Agent,執(zhí)行復雜任務的Token消耗,比傳統(tǒng)生成式大模型激增約1000倍;持續(xù)監(jiān)測類Agent可達百萬倍。行業(yè)人士告訴數(shù)智前線,OpenClaw重度用戶日均消耗Token高達3000萬至1億,按國際頂尖模型計算單日成本為90~1000美元,中端模型則需42~140美元。
最后,社區(qū)化生態(tài)是OpenClaw的第三個獨特模式。智能體之間自主發(fā)起對話、協(xié)同作業(yè)、鏈式響應,形成無人工干預的自激式交互閉環(huán)。
有用戶腦洞大開,把不同廠商的“小龍蝦”統(tǒng)統(tǒng)接入飛書,拉進同一個群聊,設定各自分工后,徹底放手。此后,這群“小龍蝦”開始自主發(fā)起對話、分工協(xié)作:一只負責抓取市場資訊,一只分析投資決策,一只專門檢查工作質量,形成“AI團隊”。
![]()
這種模式讓流量從“人機對話”轉向“機器自循環(huán)”,智能體間的交互頻次呈指數(shù)級增長,進一步加劇了算力需求的潮汐式爆發(fā)。
總體而言,OpenClaw這類Agent如果普及,三股力量將疊加共振,讓“1”裂變成難以計數(shù)的“N”——N個并發(fā)任務、N條鏈式調用、N個AI團隊。而每一個N都在挑戰(zhàn)著AI Infra的吞吐上限、調度效率、成本邊界。更殘酷的現(xiàn)實是:推理的迭代速度,可能遠遠跟不上Agent生態(tài)爆炸的速度,AI Infra正面臨巨大挑戰(zhàn)。
03
AI Infra推理系統(tǒng)面對五大挑戰(zhàn)
OpenClaw的這一跨越,迫使底層AI Infra推理迎來五道此前未出現(xiàn)過的挑戰(zhàn):
挑戰(zhàn)一:撐住洪峰,從“單次短鏈路”到自激爆發(fā)的極限重構
傳統(tǒng)AI服務遵循“請求—推理—結束”的短鏈路邏輯,但OpenClaw的ReAct模式,要完成“請求—判斷—行動-反思”多輪循環(huán),每一輪都是一次獨立的推理請求。人機交互場景下,單次用戶指令可放大為幾次到幾十次推理請求;一旦進入多Agent協(xié)作模式,Agent之間以機器速度在多個節(jié)點上高頻往返,沒有任何人類節(jié)奏的緩沖,每秒處理的請求數(shù)量瞬間可放大幾十上百倍,在毫秒級窗口內,形成傳統(tǒng)服務根本無法預見的“自激式流量洪峰”。
這要求基礎設施要具備超高并發(fā)、低延遲、抗雪崩的極致吞吐能力,同時兼容高頻短推理與長會話共存的復雜場景,解決隊列擁堵、鏈路打滿、GPU利用率低下的頑疾,支撐指數(shù)級放大的請求量。
挑戰(zhàn)二:算力調度,從“誰有空誰上”到全生命周期精準匹配
OpenClaw的任務天然是串行鏈式的,就像接力賽,AgentA負責打開瀏覽器截圖,交給AgentB理解頁面內容,B分析完畢才能觸發(fā)AgentC生成最終報告。三步必須依次執(zhí)行,無法并行。任何一環(huán)卡住,整條鏈就停在原地等待,而在等待期間每個Agent仍占用顯存不釋放。此外請求還呈現(xiàn)輕重混雜、多級跳變的特點,“誰空閑誰調度”的粗放調度模式徹底失效。
在這種情況下,基礎設施必須進化為智能編排系統(tǒng):針對串行鏈式調用,AgentA輸出完畢,其占用顯存應即時釋放或降級保留,待AgentB完成上游結果回傳后再重新激活,而非讓整條鏈路的每一環(huán)都白白占著資源“空轉等候”。而且,輕量意圖匹配輕算力,復雜推理匹配高算力,高優(yōu)先級任務享有資源保障,這讓AI Infra的算力調度,從負載均衡向全鏈路資源生命周期精細管理升級。
挑戰(zhàn)三:內存續(xù)命,從“用完即清”到動態(tài)交互下記憶墻失控突圍
KV Cache是模型的“短期工作記憶”,把已計算的上下文存下來供下次復用,省時省顯存。這在傳統(tǒng)服務邏輯下較為簡單,一個用戶、一段對話、一塊緩存,用完即清。但在OpenClaw的多輪交互、工具調用、多Agent協(xié)作場景中,每次產生的碎片化中間結果不斷插入,“工作記憶”指數(shù)級上升,傳統(tǒng)緩存復用邏輯根本無從命中。帶來的后果,輕則延遲飆升,重則整條任務鏈路崩潰。
基礎設施需要具備多角色會話隔離、動態(tài)KV裁剪、緩存優(yōu)化復用能力,破解長上下文與智能體動態(tài)交互帶來的內存墻難題。
挑戰(zhàn)四:彈性擴容,從"加機器救場"到秒級無縫接續(xù)
雙十一零點,數(shù)十萬用戶同時發(fā)出“幫我搶購限量商品”的指令,流量3秒內暴漲。傳統(tǒng)服務的應對方式是“加機器、把請求分流出去”,但OpenClaw的Agent此時記著它打開了哪個頁面、點了哪個按鈕、正在等哪個Agent回傳結果,這些上下文全部活在內存里,綁定在某臺具體的服務器上。一旦遷移,上下文瞬間斷裂,任務失敗,并沿著Agent協(xié)作鏈路逐級擴散,引發(fā)級聯(lián)雪崩。
因此,OpenClaw要求基礎設施在秒級完成擴容的同時,還必須將上下文完整遷移、無縫接續(xù),并具備全鏈路熔斷、限流、降級能力。這兩件事單獨做都很難,同時實現(xiàn),是傳統(tǒng)架構從未考慮過的命題。
挑戰(zhàn)五:模型適配,從“默認先跑英偉達”到國產芯適配無時差
OpenClaw需要前沿模型矩陣協(xié)同作業(yè),而模型現(xiàn)在就像軟件版本一樣甚至每天迭代,不同模型差異極大。這是傳統(tǒng)適配從未有過的速度與復雜度組合。
基礎設施必須能隨時兼容下一個“格式又改了”的新模型。而開源社區(qū)的規(guī)律是現(xiàn)實的,一個新模型發(fā)布,開發(fā)者默認先跑英偉達GPU,國產芯需要二次開發(fā),算子要重新適配,精度要對齊,有時候光是把模型"跑起來"就要額外花幾周。這不是國產芯不努力,而是生態(tài)欠賬還在還。結果就是,國產芯的模型適配總是慢一步,OpenClaw的能力迭代也隨之被拖住了。這是國產芯需要攻克的難題。
04
如何先手布局智能體,重構AI Infra
面對智能體浪潮,百度集團執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖在去年8月的公開演講中就明確了行業(yè)根本性需求轉變,判斷底層技術將迎來大迭代。
他提及大模型正“從聊天陪伴走向解決各類場景需求的應用”,AI正從Copilot向具備自主決策能力的AI Agent躍遷。這一轉變直接改變了基礎設施的負載特征:“未來AI應用的推理需求將超過訓練”,且模型需處理更復雜任務與更長上下文。這與OpenClaw等智能體多輪推理的算力消耗結構高度呼應,也對AI基礎設施提出“推理需求主導、長上下文、極致性價比”的新挑戰(zhàn)。
而針對AI Infra的五大挑戰(zhàn),百度智能云也給出了應對舉措:
舉措一:流量洪峰下,班車調度與貪心算法巧妙改變算力調度效率
OpenClaw爆火,帶來的史詩級流量洪峰讓響應變慢,甚至整個服務鏈條卡死。問題的根源之一出在算力調度邏輯上:傳統(tǒng)系統(tǒng)采用“先進先出”模式,即請求一到達,就立即分發(fā)給下一個可用的推理實例。看似公平,實則在高并發(fā)下會讓大量請求堆積在推理引擎內部排隊。
對此,百度百舸推出了班車調度(Staggered Batch Scheduling)機制,像公交車一樣,先在極短時間窗口內把一批請求“攢”在一起,再預判哪臺推理實例即將空閑,掐準時機整批發(fā)出。這種班車模式,從根本上消除了請求在引擎內部的無效等待時間,實現(xiàn)了 TTFT 的顯著降低。
然而,光解決排隊問題還不夠。OpenClaw不同推理任務計算量差異懸殊,當它們被分散到多個并行計算單元上時,極易出現(xiàn)“旱澇不均”,所有單元必須等最慢的那個跑完,才能進入下一輪。百度百舸利用批處理(batching)的時間窗口,獲取這批請求的全局信息,用貪心算法將這批任務在各個計算單元之間做拼配,讓每個單元的工作量盡量齊平。兩套創(chuàng)新協(xié)同發(fā)力,從而實現(xiàn)GPU利用率大幅躍升。
舉措二:深入底層挖潛,定制融合算子,實現(xiàn)吞吐躍升
針對大量OpenClaw等智能體應用并發(fā),ReAct多輪循環(huán)帶來的“自激式流量洪峰”,系統(tǒng)吞吐量成為了關乎生死的核心指標——一旦吞吐跟不上,任務鏈路就可能出現(xiàn)整體擁堵甚至徹底崩潰。
要提升吞吐上限,首先要從推理框架的底層“榨干”硬件性能。針對大量智能體并發(fā)帶來的極高計算壓力,百度百舸聯(lián)合昆侖芯,基于 vLLM 社區(qū)標準推出了面向昆侖芯 XPU 的高性能插件vLLM-Kunlun Plugin。
這一方案的核心思路非常直接:通過面向不同模型定制高性能的“融合算子”,將原本零散的計算步驟打包處理,重點緩解 Attention(注意力機制)與 MoE(混合專家)等核心模塊的計算瓶頸,從而在框架層面實現(xiàn)系統(tǒng)性提速。實測數(shù)據(jù)顯示,在 DeepSeek、Qwen、Llama、GLM等主流模型上,這套底層優(yōu)化顯著提升了昆侖芯 P800 的吞吐和時延表現(xiàn)。同時,配合百度百舸 AIAK 訓推加速技術,系統(tǒng)吞吐更是實現(xiàn)了2到9倍的驚人躍升。
舉措三:分布式KV Cache和輕量級CP,實現(xiàn)長上下文推理加速
在 PD(Prefill-Decode) 分離式推理正成為新一代計算范式核心的當下,上下文緩存(KV Cache)的流轉效率,直接決定了系統(tǒng)面對高并發(fā)請求時的響應和生成速度。
面對OpenClaw等智能體超長上下文帶來的嚴峻挑戰(zhàn),百度百舸采用分布式 KV Cache實現(xiàn)全局緩存智能調度。更關鍵的是Prefill和Decode兩階段之間的高效銜接,二者常分布在不同計算節(jié)點,緩存數(shù)據(jù)如果傳遞不及時,后一階段就只能干等。百舸通過高速傳輸通道加快節(jié)點間的數(shù)據(jù)流轉,并引入異步調度,讓兩階段錯開、互不阻塞,冗余計算消失,顯著提升長上下文推理速度。
在長文本推理中,首token延遲(TTFT)一直是用戶體驗的“攔路虎”。根源在于128K超長上下文,單張GPU顯存根本裝不下,簡單切分給多張卡易出現(xiàn)負載不均、快慢卡等待的僵局。為此,百度百舸基于萬卡級實戰(zhàn)經驗,推出了輕量級CP(上下文并行)方案,通過邏輯雙倍切分,把任務切成GPU數(shù)量兩倍再重新拼配,確保負載均衡,并以單次全局通信降低交互開銷。實測結果,128K超長序列32卡部署下,TTFT控制在2秒內,讓長文本推理邁入秒級時代。
舉措四:三大核心方案,擴容從分鐘級跨入秒級時代
OpenClaw等智能體流量具有顯著潮汐特性,請求量可短時間暴漲數(shù)十倍,讓大模型的彈性擴縮容成為一道繞不開的難題。如果臨時拉起新節(jié)點,但大模型冷啟動耗時極長,如Qwen3-235B啟動需521 秒,而提前預留資源又會造成嚴重浪費。
為此,百度百舸對啟動流程全面重構,針對模型擴容的三大核心瓶頸——權重加載慢、編譯緩存每次啟動要重復生成、計算圖初始化耗時高,推出三大核心技術:自適應權重傳輸、編譯緩存復用、分階段計算圖捕獲與守護實例機制,實現(xiàn)精準破局。實測將Qwen3-235B啟動時間從521秒壓縮至4.91秒,冷啟動低至34秒,讓擴容從分鐘級跨入秒級時代。
舉措五:通過擁抱開源生態(tài),快速適配新模型
為解決國產芯片部署大模型長期面臨的慢一步和性能瓶頸,百度智能云的策略是堅定融入vLLM開源生態(tài),不另起爐灶,讓熟悉英偉達GPU的開發(fā)者無需重新學習,即可平滑遷移到國產芯片上,從而徹底打通模型迭代快與國產芯片適配慢之間的死結。
百度百舸聯(lián)合昆侖芯正式推出的vLLM-Kunlun插件,將昆侖芯的適配工作收斂到底層算子層,大幅降低開發(fā)門檻。93%的算子與vLLM社區(qū)接口完全對齊,復用社區(qū)技術即可完成全量適配。目前vLLM-Kunlun已完成50余款主流大模型的推理適配,配套的XRAY精度抓取工具與牽星AI自動化對比平臺,將精度排查從手工升級為自動精準定位。實測數(shù)據(jù)顯示:小米MiMO-Flash-V2從零到上線僅需兩天,Qwen3.5適配全程半小時,通過快速定位并修復瓶頸,TTFT降低20%。
面對OpenClaw等智能體浪潮帶來的五大主要挑戰(zhàn),可以看到百度智能云通過“前瞻布局、從底層入手、軟硬協(xié)同、邊跑邊建”的策略,不斷推出對應舉措,完成實測驗證。
而這背后,是百度智能云深耕多年的全棧AI Infra能力支撐:從最底層的昆侖芯自研芯片,到百度天池超節(jié)點、再到點亮的P800三萬卡集群,以及穩(wěn)定、極速、高效的AI計算平臺百度百舸,形成從硬件到軟件的完整技術閉環(huán)。這樣的全棧能力,既支撐OpenClaw生態(tài)的高速發(fā)展,更是在AI基礎設施格局加速重塑的今天,最關鍵的勝負手。
但這硬仗還遠未到收兵的時候。當前全球日均token消耗量已超過360萬億。IDC預測,未來5年還會再增長3億倍。表面上人們在“養(yǎng)龍蝦”,水面之下,一場關乎Agent普及的AI基礎設施硬戰(zhàn),正在全面開打。歷史上每一次應用層的范式躍遷,都會在基礎設施層引爆一輪軍備競賽。在OpenClaw生態(tài)以肉眼可見的速度向外擴張的當下,AI Infra的戰(zhàn)爭,則速度更快、烈度更高、容錯窗口更窄。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.