<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Clawdbot 之后,我們離能規模化落地的 Agent 還差什么?

      0
      分享至

      OpenClaw (原名 Clawdbot)爆火。

      對于個人極客來說,OpenClaw 是有趣的。但對于企業和商業環境來說,問題立刻暴露:昂貴(燒 Token)、不可控(安全邊界模糊)、存在隱私問題,且難以協作。

      可以說,目前的 Agent 更多還是驚艷的 Demo,不是可以規模化的產品。

      Monolith 礪思資本辦了一場「After the Model」技術沙龍,聊了聊:Agent 離規模化落地還有哪些難題?

      在活動中,一個被反復提及的觀點是:Agent 需要是一個可持續工作的系統,而非單次任務的跑通。

      這意味著,光有「模型智力」是遠遠不夠的。想跨過工程這條鴻溝,必須還要「死磕」這幾個硬指標:穩定性、高吞吐量、成本控制、精確的狀態管理。

      以下是活動的一些核心 Insight,供從業者參考。

      ??關注 Founder Park,最及時最干貨的創業分享

      Founder Park 聯合扣子,舉辦了一場 Skill 招募大賽。如果你手里有一套在用、能交付結果的方法論,很適合來試試!

      歡迎飛書掃碼加群:

      進群后,你有機會得到:

      • 可落地的 Skill 搭建方法

        從一個想法或一套 SOP,拆解成真正能跑起來的 Skill

      • Skill 的展示與放大通道

        不只是自己用,而是被更多人看到、用到

      • 被看見后的實際激勵

        好的 Skill,有機會獲得明確回報

      01教模型做事的成本太高,

      不能用黃金蓋平房

      任何系統的可持續性,最終都得回歸到單位經濟模型(UE)。如果 Agent 創造的價值覆蓋不了它消耗的成本,那么無論模型多么先進,這個系統在商業上都是不可持續的。

      當前 Agent 的門檻主要存在于數據與設施上。

      在 SFT(監督微調)模式下,我們依賴人類專家來教模型做事。但在 GUI Agent(讓 AI 操作電腦界面)這種高門檻任務中,這種依賴變成了難以承受的負擔。

      為了獲得高質量的 GUI 任務數據,部分從業者發現,他們需要雇傭「985 高校的高年級博士生」來進行標注,而即使是這樣高水平的人力,標注一條數據也需要耗費 20 分鐘。

      這種高昂的時間與人力成本直接限制了數據的規模,團隊最終只標注了 200 多個任務,無法進一步擴大。

      簡單點說,我們實際上正在用黃金蓋平房——依靠堆砌專家人力來換取智能的提升,在復雜 Agent 場景下是不可持續的。

      這反向逼迫行業必須轉向 RL(強化學習)——讓 Agent 在虛擬環境里自己試錯、自我博弈,擺脫對昂貴人工數據的依賴。只有這樣,才能把數據成本從"按人頭算"變成"按算力算",實現邊際成本的下降。

      但是,RL 的門檻也不低。

      傳統的工業級 RL 訓練往往依賴龐大的算力集群。即使是經過優化的訓練流程,仍然需要 16 張顯卡(8 卡采樣、8 卡訓練)以及大量的 CPU 資源來支撐仿真環境。

      對于大多數中小企業或學術團隊而言,這是一筆不菲的開銷。如果無法通過 RL 實現數據的自我生成,Agent 的商業模式會被高昂的人力成本直接鎖死。

      破局的關鍵是構建高仿真環境,讓 Agent 通過自主探索產生海量交互數據,再通過設計有效的獎勵信號,用 RL 訓練出更強的策略。

      02光速的 GPU 算力,

      但被迫在龜速的操作系統上訓 Agent

      當前 Agent 訓練面臨的悖論還有:光速的 GPU 算力,配上了龜速的操作系統。

      在傳統的 RL 任務(比如下棋、打游戲)中,環境反饋是毫秒級的,步長短、速度快。

      但在 GUI Agent 場景下,Agent 執行一個動作——比如在虛擬機里點擊 Excel 按鈕——需要經歷"虛擬機渲染→截屏→圖像回傳→視覺模型處理"的漫長鏈路。

      實際訓練中,完成一個 Step 的交互甚至需要30 秒以上,令人難以忍受。

      極高的延遲又進一步導致了計算資源的極度浪費——在傳統的 RL 流程中,架構通常是緊耦合的。這意味著,當 GPU 在更新模型時,環境在等待;而當環境在采樣數據時,GPU 又在空轉。

      這種時空的錯配、互相阻塞導致了極低的計算利用率。

      除了速度慢,環境的復雜度也呈指數級上升。

      不同于文本生成,GUI Agent 面臨的是一個像素級(Pixel-level)的動作空間,理論上它可以在屏幕上的任意坐標進行點擊或拖拽,這使得動作空間接近無限。

      這使得獎勵極為稀疏。比如"將 Excel 內容打印為 PDF"這樣的任務,Agent 需要連續執行幾十個步驟。在這個過程中,環境往往一片死寂,不會告訴 Agent 中間某次點擊是對是錯,只有最后一步才能得到結果。

      這種「長程視野 + 稀疏反饋 + 無限空間」的組合,構成了 Agent 所在環境的真實面貌——它是一個充滿了摩擦的環境。我們不能再用訓練聊天機器人的邏輯來訓練 Agent。

      對于創業公司而言,這意味著必須投入資源去構建仿真訓練環境,這比單純購買 H100 顯卡更考驗團隊的技術沉淀。

      03基礎設施:太重、太貴、玩不起

      如何解決環境問題?

      在現場,不同的分享者分別從橫向擴展與縱向輕量化兩個維度,給出了 Infra 重構的答案:解耦(Decoupling)。

      橫向解耦:打破采樣與訓練的同步鎖

      面對 GUI Agent 交互速度極慢的問題,有研究者提出了一種名為 Dart(Decoupled Agent RL)的框架。

      其核心邏輯是將采樣端與訓練端在物理上徹底分開。

      在這一架構下,采樣端不再等待模型更新,而是利用 Kubernetes(K8s)并行啟動上百個 Docker 容器作為 Environment,持續不斷地生產軌跡數據。數據通過一個基于 MySQL 的軌跡管理器進行異步調度,再輸送給訓練端。

      這種設計雖然引入了 Off-policy(數據和模型不同步)的挑戰,需要通過數據篩選機制來平衡,但收益是巨大的,至少有三層:

      • 消除了 GPU 等待環境反饋的空轉時間

      • 實現了 5.5 倍的環境利用率提升

      • 整體訓練吞吐量翻了近一倍

      這也意味著,Agent 的 Infra 必須具備處理異步數據流的能力,而非傳統的同步批處理,將訓練過程轉變成了一個持續流動的、高吞吐的流水線。


      Dart 框架

      縱向解耦:降低算力門檻

      Infra 的另一個痛點在于「重」。

      現有的工業級框架(如 Verl, OpenRLHF)往往針對大規模集群,代碼量龐大且模塊耦合嚴重,對于學術界或資源受限的初創團隊而言,修改算法邏輯或適配小規模集群的門檻極高。

      另一位研究者展示了輕量化的解耦思路——開發模塊化框架,將算法邏輯、模型架構與分布式引擎分離

      這種 RL-Centric 的設計理念,把工程復雜度封裝在模塊邊界內,實現了"邏輯即實現"——研究者可以像搭積木一樣,通過插件化配置自由組合 GAE、GRPO、PPO 等算法組件,大幅降低了處理底層分布式的負擔。

      同時他們還通過 CPU Offload 技術實現了顯存復用——推理采樣時將訓練參數卸載至 CPU,優化更新時再加載回 GPU,顯著降低了硬件門檻。


      RLLaVA 框架

      所有這些技術細節背后的邏輯都趨于一致:要讓 AI Agent 可行,首先得把它的工位(基礎設施)配齊。現有的工具太重、太貴、太慢。因此,我們需要更輕量、模塊化的中間件,讓中小團隊也能玩得起 Agent 訓練。

      這也正是 Infra 領域的創業機會。

      04Long Context 并不等同于記憶

      算力和環境之外,另一個問題是狀態管理

      Transformer 架構雖然強大,但它缺乏可讀寫存儲器,無法顯式地存儲或更新中間的推理狀態,也沒有循環或遞歸機制。

      在處理簡單問答時,這種無狀態特性不是大問題;但在面對復雜的軟件開發或長程邏輯推理時,這種缺陷是致命的。

      由于缺乏對推理狀態的有效管理,模型在解決復雜遞歸任務時,往往會出現推理鏈路斷裂或邏輯漂移。

      這些問題,相信重度使用 AI 的用戶都能感受到。

      學術界與工業界也正在嘗試從架構底層進行修補。諸如Mamba 等 State Space Models(SSM)、Linear Attention 機制、Stack 機制,正在成為解決這一問題的熱門方向。

      這些新架構試圖通過更高效的狀態壓縮與傳遞機制,讓模型具備原生的狀態推演能力,從而彌補 Transformer 在長程狀態管理上的先天不足。

      另一個思路是改變推理的載體。當前大多數 Agent 依賴自然語言進行思維鏈推理,但自然語言在精確計算和狀態追蹤上有局限。

      一種思路是讓模型學會用代碼思考——代碼天然具備變量、函數和邏輯流,比自然語言更適合精確的狀態管理。


      Code Thinking

      在工程落地層面,一個常見誤區是把 Long Context(長上下文)等同于"記憶"。但單純拉長上下文窗口既不經濟也不實用。

      實際場景中,記憶被劃分為兩類:用戶側記憶執行側記憶。前者類似傳統用戶畫像,記錄用戶偏好和基本信息,大多數 AI 客服已具備雛形。后者是 Agent 自我進化的關鍵——不僅要記住「用戶是誰」,更要記住「我上次是如何完成任務的」,包括執行軌跡和經驗教訓。

      當再次遇到類似任務時,Agent 應能復用成功路徑或規避踩過的坑,而非從零開始。

      在記憶架構上,一種思路是將其設計為file system 式的分層存儲。當 Agent 需要回顧時,它執行的是讀取文件的操作,而非在上下文窗口中大海撈針。

      對于一個系統而言,「記憶」的本質不應該是記住所有的對話歷史,而是能夠像計算機一樣,精確地管理每一個變量的周期與狀態。

      總而言之,對于企業級應用來說,客戶不在乎你的上下文窗口有多長,只在乎 AI 能不能記住「我上次說過什么」以及「公司的業務規則是什么」諸如此類問題。

      解決健忘問題,是 Agent 從玩具走向企業級員工的入場券。

      05護城河變了,

      贏家也會變

      盡管這場沙龍是一場偏向技術、工程層面的交流,但我們仍能從中提取出很多信號。

      過去我們認為護城河在于模型本身,但隨著開源模型能力的快速逼近,護城河正在從"單點模型能力"向"系統整合能力"擴展。

      未來的贏家,不一定是模型最強的團隊,而是那些能通過優秀的 Infra 架構、低成本的數據閉環和高效的記憶管理,最大化釋放模型能力的團隊。工程化能力正在成為新的差異化來源。

      其次,我們需要注意,賣鏟子的邏輯變了,Agent Infra 是被低估的洼地。

      正如沙龍中所討論到的,為了讓 Agent 真正落地,我們需要全新的基礎設施,不是傳統的云計算,而是專門為 Agent 設計的諸如異步訓練框架、解耦的采樣環境和向量化記憶文件系統之類的 Agent Native Infra。

      目前的 Agent 開發棧依然非常原始。這意味著,誰能為 Agent 開發者提供好用的「IDE」、「調試器」和「虛擬訓練場」,誰就有機會成為 AI 2.0 時代的 Databricks 或 Snowflake。

      最后,隨著 GUI 等復雜場景的出現,人工標注的成本顯然已不可持續。

      未來的數據壁壘,不再是誰爬取了更多的互聯網文本,而是誰能構建更逼真的仿真環境,讓 Agent 在其中自我博弈、自我進化。這種通過 RL 產生的高質量合成數據,將是下一階段最稀缺的資源。

      我們永遠處在一個不斷出現噪音,排出噪音的商業環境中,Agent 的深水區才剛剛開始。


      轉載原創文章請添加微信:founderparker

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      為什么訪問中國之后,不少“歐美的高管”回去時都感到壓力巨大?

      為什么訪問中國之后,不少“歐美的高管”回去時都感到壓力巨大?

      體育小柚
      2026-03-20 22:51:48
      郭沫若的楷書我是第一次見到!顛覆了我們的認識!驚艷了書壇!

      郭沫若的楷書我是第一次見到!顛覆了我們的認識!驚艷了書壇!

      小豫講故事
      2026-03-13 06:00:07
      伊朗,突然大漲!

      伊朗,突然大漲!

      中國基金報
      2026-03-22 00:10:44
      比亞迪電摩鋰電池上市:76V45Ah售價3456元,續航150公里,用10年

      比亞迪電摩鋰電池上市:76V45Ah售價3456元,續航150公里,用10年

      三農老歷
      2026-03-19 19:57:36
      奔馳車身滿是“渣男”字樣,車牌號疑為粵P,廣東河源警方:核查

      奔馳車身滿是“渣男”字樣,車牌號疑為粵P,廣東河源警方:核查

      大風新聞
      2026-03-21 12:19:02
      美伊戰爭的大決戰,即將打響!

      美伊戰爭的大決戰,即將打響!

      君臨財富
      2026-03-17 22:51:09
      太突然!老戲骨游飆猝逝,終年57歲!

      太突然!老戲骨游飆猝逝,終年57歲!

      地理三體說
      2026-03-20 22:43:04
      金價跌破4500美元 創43年最大單周跌幅 有人接連“抄底”黃金后傻眼 戰爭買黃金失靈了?

      金價跌破4500美元 創43年最大單周跌幅 有人接連“抄底”黃金后傻眼 戰爭買黃金失靈了?

      閃電新聞
      2026-03-21 16:52:27
      尹恩惠INS曬新照:換新發型很有時尚范,橘紅小洋裝顯俏皮

      尹恩惠INS曬新照:換新發型很有時尚范,橘紅小洋裝顯俏皮

      笑貓說說
      2026-03-22 00:45:11
      未能照抄湖人!老鷹未能限制杜蘭特,火箭也輕松拿下了勝利?

      未能照抄湖人!老鷹未能限制杜蘭特,火箭也輕松拿下了勝利?

      稻谷與小麥
      2026-03-22 01:22:03
      女籃猛將黑裙逆襲!175cm露肩身材太性感,這反差誰能頂得???

      娛樂領航家
      2026-03-19 22:00:03

      坑慘廣東隊!杜鋒做出重大決定,男籃得分王被棄用!

      坑慘廣東隊!杜鋒做出重大決定,男籃得分王被棄用!

      緋雨兒
      2026-03-21 16:26:43
      裝錢的麻袋都不夠了!俄羅斯每天多掙500億,四年戰爭,一朝回血

      裝錢的麻袋都不夠了!俄羅斯每天多掙500億,四年戰爭,一朝回血

      泠泠說史
      2026-03-20 18:31:09
      “科大男生9秒視頻”火了,生猛操作令人嘆為觀止:不愧是高才生

      “科大男生9秒視頻”火了,生猛操作令人嘆為觀止:不愧是高才生

      妍妍教育日記
      2026-03-20 21:33:36
      沖著顏值和肉體,也要去看這部Starz美劇

      沖著顏值和肉體,也要去看這部Starz美劇

      來看美劇
      2026-03-21 19:00:27
      電動公交之后,又一個行業被電車教育,燃油車的優勢被重新認可

      電動公交之后,又一個行業被電車教育,燃油車的優勢被重新認可

      柏銘銳談
      2026-03-19 18:47:00
      主人坐馬路邊和狗分一個饅頭,被善良路人誤會是乞丐,喜提一袋吐司面包...養狗是真不會餓肚子??!

      愛寵物
      2026-03-20 22:46:12

      胡衡華被查,今年已有4名正部級官員落馬

      胡衡華被查,今年已有4名正部級官員落馬

      大風新聞
      2026-03-20 17:33:03
      CBA排名!廣東輸球山東止敗,上海釀40分慘案,北京終結遼寧連勝

      CBA排名!廣東輸球山東止敗,上海釀40分慘案,北京終結遼寧連勝

      中國籃壇快訊
      2026-03-22 00:02:01
      西方軍事專家:只有吉爾吉斯斯坦知道,中國早就是最強超級大國了

      西方軍事專家:只有吉爾吉斯斯坦知道,中國早就是最強超級大國了

      皇朝冰酷
      2026-03-21 17:49:34
      2026-03-22 01:59:00
      FounderPark incentive-icons
      FounderPark
      關注AI創業,專注和創業者聊真問題
      1179文章數 159關注度
      往期回顧 全部

      財經要聞

      通脹警報拉響,加息潮要來了?

      頭條要聞

      伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

      頭條要聞

      伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      田栩寧終于涼了?出軌風波影響惡劣

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態度原創

      本地
      家居
      數碼
      親子
      公開課

      本地新聞

      春色滿城關不?。B興春日頂流,這片櫻花海藏不住了

      家居要聞

      時空交織 空間綺夢

      數碼要聞

      炸鍋!國產存儲芯片再突破!手機固態價格大跳水,內存自由要來了

      親子要聞

      教育部發布通知,幼兒園將迎來大變動,家長:幸福來得太突然!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版