網易首頁 > 網易號 > 正文申請入駐

Clawdbot 之后，我們離能規模化落地的 Agent 還差什么？

2026-02-03 20:39:59　來源: FounderPark

北京舉報

分享至

OpenClaw （原名 Clawdbot）爆火。

對于個人極客來說，OpenClaw 是有趣的。但對于企業和商業環境來說，問題立刻暴露：昂貴（燒 Token）、不可控（安全邊界模糊）、存在隱私問題，且難以協作。

可以說，目前的 Agent 更多還是驚艷的 Demo，不是可以規模化的產品。

Monolith 礪思資本辦了一場「After the Model」技術沙龍，聊了聊：Agent 離規模化落地還有哪些難題？

在活動中，一個被反復提及的觀點是：Agent 需要是一個可持續工作的系統，而非單次任務的跑通。

這意味著，光有「模型智力」是遠遠不夠的。想跨過工程這條鴻溝，必須還要「死磕」這幾個硬指標：穩定性、高吞吐量、成本控制、精確的狀態管理。

以下是活動的一些核心 Insight，供從業者參考。

??關注 Founder Park，最及時最干貨的創業分享

Founder Park 聯合扣子，舉辦了一場 Skill 招募大賽。如果你手里有一套在用、能交付結果的方法論，很適合來試試！

歡迎飛書掃碼加群：

進群后，你有機會得到：

可落地的 Skill 搭建方法
從一個想法或一套 SOP，拆解成真正能跑起來的 Skill

Skill 的展示與放大通道
不只是自己用，而是被更多人看到、用到

被看見后的實際激勵
好的 Skill，有機會獲得明確回報

01教模型做事的成本太高，

不能用黃金蓋平房

任何系統的可持續性，最終都得回歸到單位經濟模型（UE）。如果 Agent 創造的價值覆蓋不了它消耗的成本，那么無論模型多么先進，這個系統在商業上都是不可持續的。

當前 Agent 的門檻主要存在于數據與設施上。

在 SFT（監督微調）模式下，我們依賴人類專家來教模型做事。但在 GUI Agent（讓 AI 操作電腦界面）這種高門檻任務中，這種依賴變成了難以承受的負擔。

為了獲得高質量的 GUI 任務數據，部分從業者發現，他們需要雇傭「985 高校的高年級博士生」來進行標注，而即使是這樣高水平的人力，標注一條數據也需要耗費 20 分鐘。

這種高昂的時間與人力成本直接限制了數據的規模，團隊最終只標注了 200 多個任務，無法進一步擴大。

簡單點說，我們實際上正在用黃金蓋平房——依靠堆砌專家人力來換取智能的提升，在復雜 Agent 場景下是不可持續的。

這反向逼迫行業必須轉向 RL（強化學習）——讓 Agent 在虛擬環境里自己試錯、自我博弈，擺脫對昂貴人工數據的依賴。只有這樣，才能把數據成本從"按人頭算"變成"按算力算"，實現邊際成本的下降。

但是，RL 的門檻也不低。

傳統的工業級 RL 訓練往往依賴龐大的算力集群。即使是經過優化的訓練流程，仍然需要 16 張顯卡（8 卡采樣、8 卡訓練）以及大量的 CPU 資源來支撐仿真環境。

對于大多數中小企業或學術團隊而言，這是一筆不菲的開銷。如果無法通過 RL 實現數據的自我生成，Agent 的商業模式會被高昂的人力成本直接鎖死。

破局的關鍵是構建高仿真環境，讓 Agent 通過自主探索產生海量交互數據，再通過設計有效的獎勵信號，用 RL 訓練出更強的策略。

02光速的 GPU 算力，

但被迫在龜速的操作系統上訓 Agent

當前 Agent 訓練面臨的悖論還有：光速的 GPU 算力，配上了龜速的操作系統。

在傳統的 RL 任務（比如下棋、打游戲）中，環境反饋是毫秒級的，步長短、速度快。

但在 GUI Agent 場景下，Agent 執行一個動作——比如在虛擬機里點擊 Excel 按鈕——需要經歷"虛擬機渲染→截屏→圖像回傳→視覺模型處理"的漫長鏈路。

實際訓練中，完成一個 Step 的交互甚至需要30 秒以上，令人難以忍受。

極高的延遲又進一步導致了計算資源的極度浪費——在傳統的 RL 流程中，架構通常是緊耦合的。這意味著，當 GPU 在更新模型時，環境在等待；而當環境在采樣數據時，GPU 又在空轉。

這種時空的錯配、互相阻塞導致了極低的計算利用率。

除了速度慢，環境的復雜度也呈指數級上升。

不同于文本生成，GUI Agent 面臨的是一個像素級（Pixel-level）的動作空間，理論上它可以在屏幕上的任意坐標進行點擊或拖拽，這使得動作空間接近無限。

這使得獎勵極為稀疏。比如"將 Excel 內容打印為 PDF"這樣的任務，Agent 需要連續執行幾十個步驟。在這個過程中，環境往往一片死寂，不會告訴 Agent 中間某次點擊是對是錯，只有最后一步才能得到結果。

這種「長程視野 + 稀疏反饋 + 無限空間」的組合，構成了 Agent 所在環境的真實面貌——它是一個充滿了摩擦的環境。我們不能再用訓練聊天機器人的邏輯來訓練 Agent。

對于創業公司而言，這意味著必須投入資源去構建仿真訓練環境，這比單純購買 H100 顯卡更考驗團隊的技術沉淀。

03基礎設施：太重、太貴、玩不起

如何解決環境問題？

在現場，不同的分享者分別從橫向擴展與縱向輕量化兩個維度，給出了 Infra 重構的答案：解耦（Decoupling）。

橫向解耦：打破采樣與訓練的同步鎖

面對 GUI Agent 交互速度極慢的問題，有研究者提出了一種名為 Dart（Decoupled Agent RL）的框架。

其核心邏輯是將采樣端與訓練端在物理上徹底分開。

在這一架構下，采樣端不再等待模型更新，而是利用 Kubernetes（K8s）并行啟動上百個 Docker 容器作為 Environment，持續不斷地生產軌跡數據。數據通過一個基于 MySQL 的軌跡管理器進行異步調度，再輸送給訓練端。

這種設計雖然引入了 Off-policy（數據和模型不同步）的挑戰，需要通過數據篩選機制來平衡，但收益是巨大的，至少有三層：

消除了 GPU 等待環境反饋的空轉時間
實現了 5.5 倍的環境利用率提升
整體訓練吞吐量翻了近一倍

這也意味著，Agent 的 Infra 必須具備處理異步數據流的能力，而非傳統的同步批處理，將訓練過程轉變成了一個持續流動的、高吞吐的流水線。

Dart 框架

縱向解耦：降低算力門檻

Infra 的另一個痛點在于「重」。

現有的工業級框架（如 Verl, OpenRLHF）往往針對大規模集群，代碼量龐大且模塊耦合嚴重，對于學術界或資源受限的初創團隊而言，修改算法邏輯或適配小規模集群的門檻極高。

另一位研究者展示了輕量化的解耦思路——開發模塊化框架，將算法邏輯、模型架構與分布式引擎分離。

這種 RL-Centric 的設計理念，把工程復雜度封裝在模塊邊界內，實現了"邏輯即實現"——研究者可以像搭積木一樣，通過插件化配置自由組合 GAE、GRPO、PPO 等算法組件，大幅降低了處理底層分布式的負擔。

同時他們還通過 CPU Offload 技術實現了顯存復用——推理采樣時將訓練參數卸載至 CPU，優化更新時再加載回 GPU，顯著降低了硬件門檻。

RLLaVA 框架

所有這些技術細節背后的邏輯都趨于一致：要讓 AI Agent 可行，首先得把它的工位（基礎設施）配齊。現有的工具太重、太貴、太慢。因此，我們需要更輕量、模塊化的中間件，讓中小團隊也能玩得起 Agent 訓練。

這也正是 Infra 領域的創業機會。

04Long Context 并不等同于記憶

算力和環境之外，另一個問題是狀態管理。

Transformer 架構雖然強大，但它缺乏可讀寫存儲器，無法顯式地存儲或更新中間的推理狀態，也沒有循環或遞歸機制。

在處理簡單問答時，這種無狀態特性不是大問題；但在面對復雜的軟件開發或長程邏輯推理時，這種缺陷是致命的。

由于缺乏對推理狀態的有效管理，模型在解決復雜遞歸任務時，往往會出現推理鏈路斷裂或邏輯漂移。

這些問題，相信重度使用 AI 的用戶都能感受到。

學術界與工業界也正在嘗試從架構底層進行修補。諸如Mamba 等 State Space Models（SSM）、Linear Attention 機制、Stack 機制，正在成為解決這一問題的熱門方向。

這些新架構試圖通過更高效的狀態壓縮與傳遞機制，讓模型具備原生的狀態推演能力，從而彌補 Transformer 在長程狀態管理上的先天不足。

另一個思路是改變推理的載體。當前大多數 Agent 依賴自然語言進行思維鏈推理，但自然語言在精確計算和狀態追蹤上有局限。

一種思路是讓模型學會用代碼思考——代碼天然具備變量、函數和邏輯流，比自然語言更適合精確的狀態管理。

Code Thinking

在工程落地層面，一個常見誤區是把 Long Context（長上下文）等同于"記憶"。但單純拉長上下文窗口既不經濟也不實用。

實際場景中，記憶被劃分為兩類：用戶側記憶和執行側記憶。前者類似傳統用戶畫像，記錄用戶偏好和基本信息，大多數 AI 客服已具備雛形。后者是 Agent 自我進化的關鍵——不僅要記住「用戶是誰」，更要記住「我上次是如何完成任務的」，包括執行軌跡和經驗教訓。

當再次遇到類似任務時，Agent 應能復用成功路徑或規避踩過的坑，而非從零開始。

在記憶架構上，一種思路是將其設計為file system 式的分層存儲。當 Agent 需要回顧時，它執行的是讀取文件的操作，而非在上下文窗口中大海撈針。

對于一個系統而言，「記憶」的本質不應該是記住所有的對話歷史，而是能夠像計算機一樣，精確地管理每一個變量的周期與狀態。

總而言之，對于企業級應用來說，客戶不在乎你的上下文窗口有多長，只在乎 AI 能不能記住「我上次說過什么」以及「公司的業務規則是什么」諸如此類問題。

解決健忘問題，是 Agent 從玩具走向企業級員工的入場券。

05護城河變了，

贏家也會變

盡管這場沙龍是一場偏向技術、工程層面的交流，但我們仍能從中提取出很多信號。

過去我們認為護城河在于模型本身，但隨著開源模型能力的快速逼近，護城河正在從"單點模型能力"向"系統整合能力"擴展。

未來的贏家，不一定是模型最強的團隊，而是那些能通過優秀的 Infra 架構、低成本的數據閉環和高效的記憶管理，最大化釋放模型能力的團隊。工程化能力正在成為新的差異化來源。

其次，我們需要注意，賣鏟子的邏輯變了，Agent Infra 是被低估的洼地。

正如沙龍中所討論到的，為了讓 Agent 真正落地，我們需要全新的基礎設施，不是傳統的云計算，而是專門為 Agent 設計的諸如異步訓練框架、解耦的采樣環境和向量化記憶文件系統之類的 Agent Native Infra。

目前的 Agent 開發棧依然非常原始。這意味著，誰能為 Agent 開發者提供好用的「IDE」、「調試器」和「虛擬訓練場」，誰就有機會成為 AI 2.0 時代的 Databricks 或 Snowflake。

最后，隨著 GUI 等復雜場景的出現，人工標注的成本顯然已不可持續。

未來的數據壁壘，不再是誰爬取了更多的互聯網文本，而是誰能構建更逼真的仿真環境，讓 Agent 在其中自我博弈、自我進化。這種通過 RL 產生的高質量合成數據，將是下一階段最稀缺的資源。

我們永遠處在一個不斷出現噪音，排出噪音的商業環境中，Agent 的深水區才剛剛開始。

轉載原創文章請添加微信：founderparker

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

超級創業者時代：如何讓個人擁有組織級能力

36氪 2026-03-19 15:50:57
0 跟貼 0
馮侖：累成狗還快樂的人，算是活明白了

馮侖風馬牛 2026-03-16 12:03:43
1 跟貼 1

小模型讀書大模型思考：上海AI Lab提出新知識推理解耦方法DRIFT

機器之心Pro 2026-03-16 11:33:51
2 跟貼 2

從經歷到知識：UIUC、清華PlugMem如何重構Agent記憶

新智元 2026-03-21 19:19:12
0 跟貼 0
供應鏈管理數智化的殘酷真相：99%的失敗，與那1%的“唯一解”

鈦媒體APP 2026-03-05 19:29:15
0 跟貼 0

找伴侶和做投資，邏輯一模一樣

光輝視角 2026-03-19 14:03:44
1 跟貼 1

對話越疆劉培超：春晚隱藏具身選手，卻是百億市值大玩家

量子位 2026-03-21 10:29:58
0 跟貼 0
太瘋了！MIT博士在Transformer里造計算機，攻破LLM終極缺陷

新智元 2026-03-21 10:11:31
153 跟貼 153

30B參數超越GPT-5！REDSearcher讓深度搜索Agent做到低成本可擴展

機器之心Pro 2026-03-09 13:28:51
0 跟貼 0
“媽，門口要錢，我們就不進去看你了”，游客在壺口瀑布外拍視頻被投訴侵權，山西壺口瀑布景區：事發地是陜西壺口瀑布，我們也是受害者

觀威海 2026-03-18 14:47:02
38938 跟貼 38938
清華聯手千問重塑歸一化范式，讓 Transformer 回歸「深度」學習

機器之心Pro 2026-02-10 18:50:12
0 跟貼 0
模型飛機試飛，鏡頭一轉發現事不簡單，美女吃了熊心豹子膽

美妙一籮筐 2026-03-20 11:43:33
0 跟貼 0
說實話框架樓，多數墻體都是空心磚的，打膨脹螺絲也真不安全！

大哥說生活 2026-03-20 08:51:15
0 跟貼 0
成品油價即將迎來“五連漲”，下周一加滿一箱油可能將多花80元，周末記得加滿油

揚子晚報 2026-03-21 07:37:10
28134 跟貼 28134
達利歐：霍爾木茲海峽大決戰即將爆發

極目新聞 2026-03-21 16:52:14
13717 跟貼 13717
AI三巨頭72小時狂掃桌面Agent！OpenAI三合一，谷歌秘測Mac版

新智元 2026-03-20 21:23:57
2 跟貼 2
企業軟件里的兩種世界觀，造出了不同的Agent

鈦媒體APP 2026-03-20 19:56:16
0 跟貼 0
AEPO：智能體熵平衡策略優化，讓探索更穩，推理更深！

機器之心Pro 2025-11-04 13:44:22
0 跟貼 0
AI編程元年：初級開發者被「團滅」？

新智元 2026-03-21 12:38:36
8 跟貼 8
量子計算機出手，醫療難題有救了嗎？

DeepTech深科技 2026-03-21 16:36:32
0 跟貼 0
CCA招標實現“飛-發-控”解耦，美戰爭部改革采購機制

看航空 2026-03-18 16:06:06
0 跟貼 0
新華社消息｜四部門印發指引規范平臺企業開展勞動規則和算法協商

學申論的談妹 2026-03-21 15:45:19
0 跟貼 0
智己汽車發布AI超級智能體“IM Ultra Agent”

界面新聞 2026-03-19 19:00:08
0 跟貼 0
想玩機械模型？這個能發動！#金屬拼裝 #V12發動機

制造科技 2026-03-19 23:00:29
0 跟貼 0
Cursor自研新模型反超 Opus 4.6，主打“價格打一折”，網友群嘲“Kimi 2.5套殼”，馬斯克認證

華爾街見聞官方 2026-03-21 13:35:08
4 跟貼 4
日本老人存款8000萬，大吃大喝高消費只為"死前財產清零"，和孩子因此關系疏遠，但他并不后悔

英國那些事兒 2026-03-21 23:16:20
1 跟貼 1
“你已進入艷遇高發地”，河南項城知名商場內現不雅標語，當地市場監管局回應：商場已自行撤下該廣告牌

哈爾濱日報 2026-03-21 14:17:00
331 跟貼 331
智己發布超級智能體，千問大模型首度量產上車

中國青年報 2026-03-19 19:42:39
0 跟貼 0
A股公司董事長去世，享年60歲！未成年女兒繼承超9億元股票，相關股份所對應的一切權利均由其母親行使

每日經濟新聞 2026-03-21 21:14:55
1 跟貼 1
男子講他的手辦模型都是幾十塊買的，于是老婆用豆包詢問價錢，網友：最后豆包還回一句“差不多”

重慶科教融媒體 2026-03-21 12:20:29
5 跟貼 5
別急著教AI開車，先讓它看懂世界

虎嗅APP 2026-03-21 17:36:05
0 跟貼 0
全球首次、硬核突破！本周，我國多領域成果密集“上新”

極目新聞 2026-03-21 06:43:43
344 跟貼 344
上海百年老店官宣閉店！曾經去吃頓飯可要一大早就排長隊，承載了幾代人的記憶，不少阿姨爺叔的“第一次”

上觀新聞 2026-03-18 17:41:49
919 跟貼 919
熱搜第一！山姆回應“冷鮮豬肉數月前屠宰”！網友：今年會費剛續完

北京商報 2026-03-21 12:06:17
1719 跟貼 1719
一次性講清楚佛教的神仙體系，佛教權力架構圖

隨風 2026-03-19 06:32:48
0 跟貼 0
航司燃油費上漲預期走強消費者開始提前“囤”機票

財聯社 2026-03-21 08:00:04
269 跟貼 269
上?？萍拣^一物理學家展板出現一大堆錯別字和語病，回應：已撤下，正制作新展板

瀟湘晨報 2026-03-20 19:34:44
2 跟貼 2
匈牙利和斯洛伐克堅決反對，峰會氣氛冷淡尷尬，歐盟未通過900億歐元援烏貸款

環球網資訊 2026-03-21 07:07:24
141 跟貼 141
美伊戰爭的隱藏變量，被低估的庫爾德人！

赴赴赴焰海 2026-03-20 00:49:52
0 跟貼 0
沒有人類了：IGN噴《紅色沙漠》用AI的報道是AI寫的

游民星空 2026-03-21 20:50:11
3 跟貼 3

FounderPark

關注AI創業，專注和創業者聊真問題

1179文章數 159關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

家居

數碼

親子

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

Clawdbot 之后，我們離能規模化落地的 Agent 還差什么？

通脹警報拉響，加息潮要來了？

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

誰在決定字母哥未來？

田栩寧終于涼了？出軌風波影響惡劣

宇樹招股書拆解，人形機器人出貨量第一！

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

春色滿城關不?。B興春日頂流，這片櫻花海藏不住了

時空交織 空間綺夢

炸鍋！國產存儲芯片再突破！手機固態價格大跳水，內存自由要來了

教育部發布通知，幼兒園將迎來大變動，家長：幸福來得太突然！

Clawdbot 之后，我們離能規模化落地的 Agent 還差什么？

伊朗發射3800公里射程的導彈最令美軍戰栗的細節披露

伊朗發射3800公里射程的導彈最令美軍戰栗的細節披露

誰在決定字母哥未來？

田栩寧終于涼了？出軌風波影響惡劣

小鵬汽車2025年Q4盈利凈賺3.8億全年營收767億

春色滿城關不?。B興春日頂流，這片櫻花海藏不住了

時空交織空間綺夢

炸鍋！國產存儲芯片再突破！手機固態價格大跳水，內存自由要來了

教育部發布通知，幼兒園將迎來大變動，家長：幸福來得太突然！