![]()
過去數月,AI 領域很難繞開一個名字 ——OpenClaw。這個項目在極短時間內獲得了爆發式關注:數十萬星標、驚人的 Token 消耗,以及幾乎所有大廠的快速跟進。從表面上看,它像是又一個現象級 AI 產品;但如果進一步審視,一個更值得思考的問題隨之浮現 ——OpenClaw 的出現,究竟意味著什么?它真的是一次技術突破,還是某種更深層變化的信號?
近日,端側智能北京市重點實驗室關于智能體的創新研討會在清華科技園召開,8 位產學嘉賓發言,從底層技術問題、技術演變趨勢、端云協同范式、技術背后的安全問題、Agent 管理實踐等維度切入,研討的主題圍繞 OpenClaw 背后的技術邏輯以及未來的發展趨勢展開。
中國人民大學副教授林衍凱在研討會上做了《從 OpenClaw 看智能體技術發展趨勢》的報告,回答了三個更本質的問題:第一,當前的智能體技術究竟走到了哪一步?第二,它真正的核心瓶頸在哪里?第三,未來一到三年,這條技術路徑會如何演進?
他從系統架構、交互執行方式,到基座模型與多智能體協同,進行分層拆解,還原技術的真實狀態,提出一個有些 “反直覺” 的判斷 ——OpenClaw 并不是底層算法的突破,而是通過工程化整合讓大模型能力跨過 “可用閾值”,使智能體真正走向可用。它更像一個智能體操作系統的早期雛形,在統一模型、工具與交互方式上重新定義了 AI 的使用范式。其爆發本質上是模型能力與工程體系在同一時間點發生共振的結果。
與此同時,林衍凱給出對核心瓶頸的系統性理解,指出 OpenClaw 也集中暴露了當前智能體在可靠性、長任務執行、Token 成本和記憶體系和自主進化上的核心瓶頸。
最后,他指出,智能體未來發展的關鍵不再只是模型變強,而是通過端云協同、協議標準化和多智能體系統,實現從單點能力向系統能力的躍遷。
![]()
以下是演講全文:
今天我想借 OpenClaw 這個最近非常火的智能體項目和大家探討一個問題,目前的智能體技術到底走到了哪一步,它的核心瓶頸是什么?下一步我們會往哪些方面走?我盡量少講一些產品,多講一些技術,里面有我的一些思考。
首先看一些數據,OpenClaw 當時轟動之后,24 小時拿到了九千 star,兩個月超過了 27 萬星標,甚至超越了 Linux,成為了整個歷史上星標最多的項目。這是我截的 OpenClaw 在 OpenRouter 上的 Token 消耗量,一周就消耗了 4.73T,整個消耗量比后面的所有加起來都多。與此同時,國內幾乎所有的大廠都在跟進,今天微信也接入了龍蝦,非常非常火。很多城市也針對 OpenClaw 出了一些政策。
![]()
我今天不是想討論它火不火,我想討論三個偏技術的問題:它為什么在今天這個時間點引爆?從技術上到底有沒有創新?從它的角度看目前有哪些需要去解決的問題?
OpenClaw 爆火的本質原因是 “可用性革命”
整個 OpenClaw 從項目啟動以來,到突破 20 萬星標到創始人加入 OpenAI,其實也就三四個月,從它火爆到現在其實也就是一個月的時間。為什么它會這么火呢?從我個人角度,是因為它極大地降低了用戶的使用門檻。它不同于傳統的聊天機器人,而是一個能夠自主執行任務的 AI 智能體 。雖然大模型出現后就有了 AutoGPT、XAgent 等類似事情,但 OpenClaw 真正讓普通人也能輕松上手使用了。
![]()
在這里我給大家一個暴論:從 AI、大模型技術創新的角度來看,OpenClaw 其實并沒有太多的創新,是已有技術的使用,它不訓練模型,不改進推理算法,也不做底層的工具學習。它所做的,是 IM 通訊平臺的接入、本地部署架構、分層記憶以及 Gateway 的標準化 。這些都是非常優秀的軟件工程設計,但在核心算法本質上并沒有突破 。
我們可以看到,系統里真正干活的、為我們提供良好體驗的,其實是它接入的 Claude Opus 4.6 或 GPT-5.4 等基座模型 。我認為,OpenClaw 對于大模型的意義,有點類似于瀏覽器之于互聯網 —— 它本身不創造內容,但它重新定義了用戶的交互方式,讓非技術背景的人也能順暢地將大模型應用到工作中 。
![]()
正因為 OpenClaw 在底層算法上沒有做過多改變,它反而成為了一個非常好的技術分析樣本 。它的成功可以向我們展示哪些技術已經相對成熟(例如基座模型的工具調用和執行能力),同時也能暴露出當前還缺失哪些技術(例如系統的可靠性、記憶模型的遷移能力、以及端云協同目前的不成熟)。
我今天用 OpenClaw 為切入點,嘗試系統性地審視整個智能體技術上,不同層的技術現狀是什么,核心瓶頸是什么,以及我認為大家可以做的一些研究方向。
來看一組統計數據,這是大模型出現以來,智能體在 50% 成功率的情況下,它可以自主完成任務的長度,大模型出來之后,倍增時間約 7 個月,過去一兩年的倍增時間加速到約 4 個月。右邊的圖是我剛才提到的 Claude Opus4.6、GPT-5.4,基本上都是在代碼能力、工具調用能力方面相比于前一版本有了質的飛躍。
![]()
OpenClaw 是智能體操作系統的雛形
OpenClaw 的總體技術架構非常簡單清晰,從底層的系統控制到 Agent 循環系統,再到上層的標準化封裝和信息流管理,最后接入暴露給用戶的各種 channels。為什么大家用起來這么好呢?本身就是它的六大關鍵技術特征 —— 這個不是我提的,是我在另外一場報告里面聽人講的,總結的非常好:社交接入、本地部署、設備接入、模型生態、技能生態,這些特征使得它對底層模型、各類用戶、各種設備以及復雜任務都具備了極強的兼容性 。
![]()
從軟件工程層面來看,OpenClaw 有三個非常核心的設計 。
第一個是它的 Gateway 系統,采取三層的架構,采用分層的形式,使得無論是外部接入的不同設備還是 IM 軟件,都可以通過 Gateway 統一路由和調度給智能體層。這樣一來,智能體本身就不需要關心用戶是通過什么平臺在交流,或者外部硬件是什么,只需專注底層 API 和頂層接口的對接即可 。
![]()
第二個是它的分層記憶機制。
OpenClaw 做了一個非常非常簡單的記憶機制,它的記憶機制雖然簡單,但非常實用。以往我們在 AutoGPT 或是其他智能體模擬系統中也見過類似設計 。
最底層(L1)是當前會話的上下文,屬于短期記憶,當上下文窗口快滿時會自動壓縮消息,其生命周期隨會話結束而終止 。
第二層(L2)類似于每日筆記或流水賬,它會自動讀取近兩天的日志,并有一個 30 天的衰減周期 。
在此之上是長期記憶層(L3),它會對底層信息進行總結,長久地提煉出人物信息、偏好和經驗教訓 。
最頂層(L4)則是基于文件的語義智能召回,其核心目的是實現個性化 。通過這套搭建在大模型之上的智能體記憶架構,系統能夠做到 “越用越懂你” 、“越用效果越好”
![]()
第三塊是兼容了 Claude 的 skill 生態。大家可以看到是三層加載,第一層通過名字、描述幫助模型快速了解 Skill 的功能,實現 skill 的快速檢索;第二層是它詳細的工作流程,這使得模型在面對不同任務時能知道該如何處理,比如我這個 PPT,或者其它事情的大概工作流程是什么。這種 skill 的方法能力能夠讓智能體去做特別專精尖的任務。最后一層是它的一些相關資源。
以上這三點是我拆解 OpenClaw 后,認為最有工程價值的部分。
![]()
講完了整個 OpenClaw 的整體架構之后,我從我個人角度提出一個自己的猜想或者判斷,其實我覺得 OpenClaw 不應該看作是一款軟件或者說所謂的一款應用,而是未來智能體操作系統的早期原型。
我看到一篇非常有趣的文章,里面提到了正如 Linux 讓所有的硬件和軟件在同樣一套標準下去運行,OpenClaw 它其實現在嘗試在做的就是讓所有的 AI 模型、消息平臺和所有的工具都在同樣一套標準下運行,這正是 OS 該干的事。
它對上提供統一的抽象,去屏蔽不同大模型的 API 的差異;向下去管理資源,比如管理 skill 插件,管理消息通道;而在中間通過網關去提供調度。它的四層架構 ——LLM 抽象層、Agent 循環、運行時、Gateway—— 與操作系統的經典分層高度對應。
我最近也經常跟人討論,整個 OpenClaw 的代碼其實缺乏一個非常強的團隊去維護,隨著大家大量用 AI 生成代碼去修改維護它,它現在的狀態像早期的 Linux 非常粗糙的狀態一樣,目前整個代碼非常臃腫,甚至已經是一個人不可 review 的狀態,整個架構也沒有成熟。我覺得這也是它的創始人加入 OpenAI 的意圖之一,他希望借助大公司的力量完成目前的原型和產品級 OS 的重構。
![]()
目前 OpenClaw 只解決了一個人在一臺機器上運行一個 Agent 的問題,未來所有端側設備變成了 Agent,未來的需求是幾百個 Agent 在一個分布式的環境里去協同工作,這些需要線程管理,需要服務發現,需要行為審計,這些目前 OpenClaw 還沒有。這也是我們為什么看到目前的整個生態競爭同時在框架層、協議層,以及未來會出現的編排層展開。可以說,將來的模型工具和應用必須適配這樣的框架和協議才能夠有效使用。
我去年也發了一些智能體模型,我覺得反響不如我的預期。原因是什么呢?我自己都不愿意用它,第一它的能力還沒有達到像 Claude 這樣,我自己寫 Code 的時候,我用 Claude。第二個,我當時發布的時候,即使是一些比較 Geek 的使用者,能夠自己給我們的模型配 API,還是會傾向于用 ollama 去推理,可能覺得 ollama 已經是一個非常好的框架。
但是智能體有自己的一套運行框架,我們的模型得在這套我們設計的框架下才能效果比較 ok 的跑起來。這就意味著以后有了 OpenClaw,用戶就會直接用 OpenClaw 去使用你的模型。試一下不好,他就會覺得你發布的智能體模型不好。這件事情非常重要,如果之后有了這樣一個東西之后,也許是 OpenClaw,也許是基于 OpenClaw 的新的東西,或者另外的東西,我們的模型就必須去主動適配它,就像我們移動時代的 APP,必須適配 IOS 以及安卓一樣,這個也是我們要做的事情。
生態競爭焦點:框架、協議與 Agent-Native 軟件
因此,從 OS 層面,它的生態競爭其實已經開始了。從 OS 層面,目前有三條路線。
- 第一條路線是目前的 OpenClaw 路線,主打開源、本地優先、IM 驅動,優勢是生態開放、隱私可控,劣勢是安全問題突出;
- 第二條是 Anthropic 的 Claude Code 路線,通過 CLI 命令行界面運行,使用內置的多智能體協作,深度集成其提出的 MCP 協議,更偏向開發者和技術用戶,在 Coding 上的優勢非常明顯;
- 第三條是 OpenAI 的路線,直接將能力集成在 ChatGPT 中觸達消費者。
同時在協議層面,大家也在爭,包括 MCP、A2A、IOA 協議,協議決定了誰主導這個生態的話語權,未來大家就得跟著它干。對于我們做研究的人員來說,跟我剛才說的一樣,未來模型的競爭維度必須從跑分高轉向用起來好。這使得工具使用、結構化輸出、長上下文、推理能力正從原來的加分項變成硬性要求,如果做不到這些的話,就沒有辦法在 OpenClaw 這樣的框架下跑起來,大家就不會用你。
![]()
第二個是從交互執行層層面,智能體怎么操作軟件這件事情大家正在探索。現在有兩條路線:
第一步是通過調用結構化 API、MCP 協議直接調用外部工具,這種方式可靠、執行快,而且相對來說更容易驗證一點。但它的一個問題是面向我們現在朝著人去優化的軟件生態,其實有一個特別大的問題,大量現有的軟件并沒有提供完善的 API 接口,覆蓋率不足也是一個問題。
另外一個路線是 GUI Agent,像人一樣去看屏幕點鼠標,豆包 AI 手機或 Claude Computer Use,都在嘗試走這一條路,它的優勢本身是它的通用性強,任何 APP 都可以操作,但缺點是需要不斷截屏識別,速度慢、耗資源,且點擊準確率不如直接調 API 穩定。
![]()
從我的角度來講,大模型智能體的出現,特別是 OpenClaw 這種現象級產品的出現,正在倒逼傳統軟件向 “AI 原生(Agent-Native)” 的設計方向演進 。當發現 API 調用效果更好時,用戶會慢慢要求軟件提供 API 接口 。如果 OpenClaw、Claude Code 等主流框架無法調用你的軟件,大家慢慢就不使用你這個軟件了。
近期也有研究嘗試通過大模型自動將現有的 GUI 軟件轉化為 Agent-Native 的 CLI 接口 ,比如港大的 CLI-Anything 項目。它用一個 7 階段自動化流水線,分析軟件代碼庫,自動生成 CLI 接口,已經在 Blender、LibreOffice 等 9 款軟件上驗證了,一千多項測試全部通過。
因此,我的判斷是短期內兩條路線還是會共存,GUI 處理長尾的應用,而 Skill 調用來處理核心的工作流,長期來看隨著更多的軟件慢慢被轉化為 Agent-Native 的接口,工具調用的覆蓋率會持續地上升。
核心瓶頸與關鍵技術路徑:長程性、端云協同、任務拆解與記憶系統
接下來從基模層面看存在的問題,Agent 要真正落地使用,必須可靠地完成多步的長任務,這是用戶愿意用你的前提。我們看一下這兩張圖:
圖上的縱坐標是模型可以大概完成多長時間的任務。在只要求 50% 成功率的情況下,像 Claude Opus 4.6 甚至能執行長達 10 小時的任務 ;但如果我們將可靠性要求提高到 80%、90% 甚至 95%(這是日常商用的底線),即使是 Opus 4.6 可能完成的任務時長也會從 10 個小時降到 1 個小時。正如 QA 的時候提到,我們普通人沒有那么多錢,或者算力有限的情況下,能接觸到的模型可能就能做幾分鐘的任務,這件事情使得我們目前智能體模型純端側的這條路,短時間內沒有那么容易走得通。
![]()
因此,從短期的角度,端云結合是一個可能的路徑,依賴于云側的話,總算力是有限的,整個花銷也非常貴。純端側的話,目前短期來看模型效果很難達到需求。可行的是什么呢?由云端完成任務拆解,將長任務分解為幾分鐘的子任務,交給端側執行,再由云端驗證。
這件事情從目前來看也是相對可行的,我們的 AgentCPM 系列工作也證明,在特定垂直場景下,端側小模型完全能達到與云端大模型相近的效果。同時像劉知遠老師的密度法則(Densing Law)指出,我們的模型能力,每 3.5 個月翻倍,今天需要云端處理的子任務,明年可能端側就能完成,整個端云結合可能隨著時間演變端側能夠完成的事情越來越多。
![]()
同時,我們專業智能體的能力也已經達到了人類專家的水平,正如剛才說的一樣,Agent 在垂域的突破非常多,代碼領域非常成熟。比如代碼領域的 Claude Code,再 GIthub 上的 commit 占比達到了 4%,預計年底將貢獻 GitHub 上 20% 的 commits ;國內日行跡公司的 FARS 項目也已經證明大模型能批量產出研究論文。
這些案例可以提煉出一個共性公式:專業智能體 = 通用大模型 + 領域知識庫 + MCP 工具 + 專業 Skill 工作流 + 領域后訓練 。我們走通這條路之后,就可以在端側去搭建一個面向于某個具體子任務的端側智能體,做到既省算力又高效。
純云端路線的另一個致命痛點是 Token 消耗極大。目前真正用上 OpenClaw 的人并不算多,一周就消耗了 4.7T Token 。假設未來有兩千萬人使用,現有的基礎設施絕對承受不住。大家可以看一下右邊的成本對比表,讓 OpenClaw 用 Opus 4.6 跑每天需要約 10 美元,即便使用 GPT5.4 也要 5.5 美元。
最近有一句話說的非常好,可能在未來,競爭變成了誰掌握了更多的高質量 Token,這些掌握高質量 Token 的人,必將在產業競爭或者技術競爭上占領優勢。
現在這么貴的 Token 很難做到,假設我們未來用戶增長十倍、百倍,目前的算力是支撐不了的,因此,必須將手機、PC 等大量端側閑置算力利用起來實施端云結合。云端做任務的規劃和分解,端側小模型就負責子任務的執行,一旦長任務被分解為十步以內的子任務,端側模型就可以勝任。長程任務不一定靠單模型變得更強來解決,也可以靠把這種長任務拆短,讓對的模型做對的事情來進一步解決。
![]()
我們要做長任務,另外一個關鍵點是記憶系統。目前大家在記憶系統上有非常多不同的設計。有基于人工設計的、基于學習的,也有明文記憶、隱狀態記憶和參數化記憶,各有各的優劣勢。人工設計的記憶架構安全可預測,但策略固定無法適應新場景;基于學習的記憶也許能發現更優策略,但它需要梯度信號和模型權重都是可訪問的。
對于記憶的形式來說,隱狀態記憶和參數化記憶,隱狀態記憶會跟特定的模型綁定,換個基座模型就用不了了,而參數化記憶的話,它沒有辦法應用于別的模型。如果我們從我們記憶架構,未來能用的角度上來說,對于端側模型我們可以用隱狀態,用參數記憶,而面向未來端云記憶的大規模復用,我個人判斷 “可遷移的明文記憶 + 可優化 / 學習機制” 將會是一個非常有潛力的主導方向。
![]()
從工具型 Agent 到自主進化系統
最后談談自主進化。當前的智能體自主性還不夠。我們一旦把任務用到了這種各樣的場景之后,真實場景的動態性、多變性往往要求我們模型能夠像人一樣主動的適應探索,以及不斷的學習。目前的智能體依賴于已有的模式,沒有辦法在部署后主動進化。我們整個學術界的發展,大模型的訓練已經慢慢的從最早期的基于模仿學習范式,轉向進入人類反饋的探索學習,正在邁向具備主動環境交互能力的自主學習范式。
那么,結合端云協同和目前的 OpenClaw 框架,第二個事情是我們有沒有可能做端側的自主進化?
目前的自主進化有非常多的分類體系,比如說基于經驗學習和參數學習的自主進化,比如說有明確監督信號、弱監督信號和無監督信號。最近發現一個嘗試:在 OpenClaw 上面做端側自主進化的玩法,這個項目叫做 OpenClaw-RL,來自 Princeton 團隊。它做了一件什么事情呢?它發現每次智能體和環境交互的時候,都會產生下一個狀態信號,比如用戶的回復,比如工具的輸出,以及終端的狀態變化,其實這些信號既包含評價信息,也包含著應該怎么做的指導信息。
OpenClaw RL 這個工作就設計了一個全異步的四組件架構,在前端服務用戶的同時,后臺同步做軌跡收集、質量評估并更新權重。在一個個性化評測場景中,它發現僅僅需要 8 步訓練就能把個性化得分從 0.17 提升到 0.76,當然,這個項目目前還比較初步,局限也很明顯:需要 8 塊 GPU、只支持自托管開源模型、無法改進閉源模型、沒有跨用戶的聯邦學習。目前的端側自主演化機制依然非常初級,局限性明顯:比如存在參數學習的訓崩風險;閉源模型由于無法獲取權重而無法學習;同時每個部署端依然是個數據孤島。真正的 AI 自主進化距離實際應用還有相當長的路要走。
![]()
如果之后有了端云結合,可以想象,會有更多的設備開始養蝦。我們再看多智能體(Multi-Agent)系統,過去若干年整個多智能體系統的發展速度令人印象深刻。從 2020 年 OpenAI Five 的個位數 Agent 到 2026 年 Moltbook 上 150 萬 Agent 的自主社交,規模跨越了六個數量級。
清華團隊提出的 MacNet 證明了增加 Agent 數量確實能持續提升任務解決質量(首次發現了智能體協作的 Scaling Law)。頭部的科技企業、研究機構也嘗試著去把多智能體加進去,比如說 Opus 4.6 就引入了所謂的 Agent team 的功能,一個主 Claude 實例可以生成多個獨立的子 Agent 并行工作,通過共享任務列表和消息系統協調。這是工業界在多 Agent 架構上開始探索的、也算蠻成熟的一個實現。
但是從多智能體的角度,我也想潑一點冷水,Moltbook 確實制造了轟動 ——150 萬 AI Agent 在上萬個論壇中討論技術、探討存在主義,甚至創建了 "龍蝦教"。但從技術角度去看的話,這更多是大量 Agent 的單向廣播,而非真正的互動交流。
真正的群體智能涌現,需要的是像曼哈頓工程,像載人航天一樣,一群 Agent 去完成一個單 Agent 沒有辦法完成的一個級別更高的任務,這種所謂的群體智能的涌現,需要 Agent 之間產生有意義的分工、沖突、和適應性協調 —— 而不只是各說各話。距離真正的 "智能體互聯網" 還有很長的路。
![]()
最后我個人研判,第一階段是目前工具化 Agent 階段,Agent 作為一個增強版的工具,我們人去定目標,去審查結果,這個階段關鍵的突破點是推理能力的增強以及推理能力慢慢的落到端側。當我們 10B 規模的端側模型具備 R1 或者 V3.2 推理能力的時候,我們端云的協同架構就可以大規模部署。MCP、A2A 這樣的協議會在這個階段慢慢收斂,這個加速延續的話,到 2027 年 Agent 可能就能處理數天甚至周級別的長任務。
第二階段是所謂的半自主智能體或協作 Agent 階段,其實多個 Agent 就開始能夠做自主的分工、協調、糾錯,這種協作 Scaling 可以被可控地預測和利用,Agent 在線學習可以成為標配的功能,就像 iPhone 出來之后,三年以后才有 APP 商店應用的生態爆發,所謂 Agent 的操作系統也需要這樣一個生態建設期。
第三個階段是Agent 具備真正的自主學習能力,整個世界有萬億級別的 Agent,這些 Agent 能夠在部署之后持續進化。從我個人的看法來說,我們要走到這個階段,面臨非常多根本性未解的問題,自主性邊界在哪里?如何實現模型無關的記憶架構?群體涌現的條件是什么?Agent 代替知識工作者后,誰為 Token 付費?這既有挑戰,也是我們研究者的機會。
![]()
最后,我總結一下。OpenClaw 不是技術突破,但它是技術臨界點的標志。從端云協同、記憶架構、端側演化到群體智能涌現,都暴露出目前智能體的一些問題,每個層次都有我們非常深刻的研究空間。目前,我們正處在智能體技術從 “演示可行” 到 “大規模部署” 的轉折期,這個時間節點非常重要。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.