<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      為什么現有的 Agent Infra 無法支撐生產級應用?

      0
      分享至


      作者 | 戴冠蘭

      編輯 | 李忠良

      我們正在經歷從“對話式 AI ”向“ Agentic AI ”的躍遷,2026 年的核心命題已經不是模型夠不夠聰明,而是 AI 能不能真正接管生產環境里的工作流。

      想象一個幫客戶做跨云遷移的 Agent。前兩小時它完美地在 AWS 和 GCP 之間配置了 VPC,拉起了實例,并在第 12 步刪改了舊數據庫。然后在第 13 步,它因為一個罕見的 API 限流崩潰了。

      你該怎么辦?重試?它會再修改一遍數據庫;重啟?它不知道哪些實例已經拉起。沒有有效狀態恢復,現在你的整個云環境就是一團亂麻。

      這是一個貼近現實的場景,任何在生產中跑過超過 10 步的 Agent 都會遇到類似的問題,只是程度不同。這篇文章試圖解釋為什么這個問題是結構性的,為什么現有的 Infra 沒有解決它,以及解決它可能需要什么

      Agent 的執行特征

      大多數團隊把 Agent 當成大模型的 wrapper,給它掛上幾個 tool call ,加一些簡單的 Harness 就上線部署了。但當你賦予 Agent 真實的系統權限,讓它長時間自主運行,才會發現其執行特征跟我們熟悉的任何軟件形態都不太一樣。

      它同時具備五個屬性:長程運行、敵意輸入、真實權限、不確定決策、真實副作用

      長程運行意味著崩潰是很大概率發生的。敵意輸入并不是說用戶故意攻擊你,而是跟瀏覽器里跑客戶端 JavaScript 同一個意思:Agent 處理的輸入(郵件內容、網頁文本、API 返回值)隨時可能包含注入指令,你必須在架構層面假設輸入不可信。真實權限意味著 Agent 持有 API key、數據庫憑證、云平臺 token。不確定決策來自 LLM 本身:同樣的 prompt,不同時間點會產生不同的輸出。真實副作用意味著每一步操作都可能改變外部世界的狀態:發了的郵件收不回來,刪改了的數據庫恢復不了。

      最近出圈的龍蝦 OpenClaw 把這個問題推到了前臺。賦予模型真實系統權限能帶來能力躍遷,但也把安全風險從理論變成了現實。

      這五個屬性單獨拿出來都不新鮮。數據庫有事務語義來處理副作用,瀏覽器有沙箱模型來處理敵意輸入,分布式系統有 checkpoint 來處理長程運行。Agent 的難點在于它把這五個屬性同時綁在了同一條執行鏈上,而且沒有任何現成的系統是為這個組合設計的。即便權限收緊、動作都可審批,長程運行 + 不確定決策也讓可恢復語義成為硬需求。

      兩個錯位的假設

      現有的 Agent Infra 建立在兩個過時的假設上。

      第一個是威脅模型的假設。整個?業在?服務器代碼的安全假設運?客戶端代碼。除了用戶輸入之外,服務器假設全部可信、執?環境受控、API surface 由你定義。而 Agent 讀取的內容是敵意的,持有真實密鑰,在你控制不了的環境?執?。它的威脅模型是瀏覽器,而不是服務器

      第二個是執行模型的假設。現有的執行 Infra 為確定性、短時、無狀態的任務設計:一個請求進來,處理完,返回結果。Agent 的執行是概率性的、長程的、帶狀態的。它的決策路徑不可復現,副作用不可撤銷,而且運行時間長到崩潰是統計必然。把這樣的執行塞進為以請求 / 進程為容錯單位的 Infra 里,問題不會在 demo 階段暴露,會在生產規模暴露。

      這兩個假設的具體后果是三個缺失:沒有副作用日志,出了事無法回答到底發生了什么;沒有可恢復的執行狀態,中斷后無法從任意點恢復上下文與環境;沒有隔離邊界,權限與數據暴露給不可控輸入。

      三條缺失的原語

      從上面兩個錯位出發,我認為正確的 Agent Infra 需要補上三條原語。這三個原語有嚴格的構建順序:副作用必須先被封存,能力邊界才能被正確執行,恢復才能是安全的。

      Effect Log

      這是另外兩個原語的地基。生產恢復以語義正確為先,調試回放以可復現為先。核心思路是把外部世界的副作用做成一套 write-ahead log

      有副作用的調用在執行前先寫 intent record,記錄冪等鍵、預期影響范圍、審批級別。執行后寫 completion record,記錄請求、響應、etag,以及是否已發生不可逆變化。恢復時,只讀調用可以直接重放;有副作用的調用默認返回 completion record 中封存的結果,不再觸碰外部世界。

      Effect Log 的關鍵是把 tool call 按可恢復語義做最小分類并規定恢復策略:

      • 純讀調用可以重放,若要可復現調試則直接返回封存響應而不是重打外部請求;

      • 冪等寫調用帶冪等鍵,恢復時允許重放,必要時由中介層用 effect log 去重補齊冪等;

      • 不可逆寫調用一律禁止重放,恢復時直接返回 completion record 中封存的結果,把它當作已發生的事實;

      • 讀寫混合調用最危險,必須把讀到的響應 / 版本指紋先寫入 intent record 并在 completion record 里一并封存,恢復時禁止重新讀取,只能基于封存的讀快照繼續推進,避免外部狀態漂移導致邏輯分叉。

      這些分類是 tool 的開發者在注冊 tool 時主動聲明的接口契約,就像 HTTP method 的語義約定一樣,GET 是安全的、PUT 是冪等的,這些并非服務器推斷出來的,而是 API 設計者承諾的。現實中會有模糊地帶:一個 Stripe refund 調用帶有 idempotency key 但結果不可撤回,它同時符合冪等寫和不可逆寫。裁決原則是按最保守的分類處理——如果一個調用的任何維度是不可逆的,恢復時就按不可逆寫對待,返回封存結果而不是重放。錯誤地把不可逆操作重放一次的代價,遠高于錯誤地跳過一次冪等重試。“接口契約”在生態初期有可能會面臨集成摩擦,所以智能語義標注也是值得探索的方向。

      回到開頭的場景:Effect Log 在第 12 步刪改庫發生的瞬間就寫下了 completion record。崩潰恢復時,Infra 讀到這條記錄,直接返回已封存的結果,重改的問題從根本上被排除。這些分類是接口契約,必須由 Capability Gateway(能力控制網關)強制執行。

      能力隔離

      有了 Effect Log 做地基,下一步是畫出能力邊界

      不把真實憑證直接交給 Agent 進程,而是通過一個 Capability Gateway 中介所有外部訪問。Agent 拿到的是有時間限制、有范圍限制、可即時撤銷的臨時令牌。權限邊界在 Infra 層強制執行,不依賴模型的自覺。

      這跟瀏覽器的安全模型是同一個思路:Tab 頁拿不到 OS 的直接訪問權,不是因為 JavaScript 代碼承諾不越界,而是因為瀏覽器在架構上就不給它這個能力。

      你給 Agent 的權限范圍就是它的爆炸半徑。這個 tradeoff 永遠存在:權限越大,Agent 越有用,但出事時的損害也越大。關鍵是要有意識地做這個選擇,而不是把所有權限 yolo 一股腦塞給 Agent。

      崩潰觸發后,scoped token 即刻失效。即便崩潰是因為注入了惡意指令,Agent 也已經沒有憑證可以繼續操作,我們開源的 ClawShell(

      https://github.com/clawshell/
      )是這方面具體實踐。

      分叉恢復

      有了封存的副作用事實和獨立的能力邊界,分叉才是安全的。

      Agent 的執行本質上是搜索:它在一個巨大的決策空間里探索路徑。這個搜索并非一條線,而是一張圖。每個分支需要獨立的 checkpoint,這是一份語義閉包:模型輸出、tool 輸出,以及 effect log 的游標位置。恢復時能精確回到某個節點繼續推進,而不必從頭來過。

      分叉恢復不只是性能優化。它是讓 Agent 系統能夠調試的前提條件。沒有它,出了問題你只能盲猜。可追蹤性從第一天起就必須內建在 Infra 里,事后補不了。


      回到開頭的場景:你看到的不再是一個死掉的任務,而是執行圖上的一個精確斷點。你可以從第 12 步之后的狀態直接續跑,帶著完整的上下文,避免從頭來一遍。

      從 Uptime(保活) 到
      Resumability(可恢復性)

      在 SaaS 時代,Infra 的核心指標是 Uptime。我們用多副本、自愈、冗余來確保 SLA。

      但對于 Agent,Uptime 是代理指標。你無法保證一個運行 48 小時的 Agent 永遠不遇到網絡抖動或硬件故障。我在 Cloudflare 做 Edge Infra 的時候學到一個原則:設計目標不應該是保證機器不掛,而是在故障發生時保住執行語義的正確性

      正確的指標是 Resumability:能不能在任意時間點重新進入執行,完整恢復狀態、上下文和環境?

      這是一個從保證不死到允許隨時死掉并滿血復活的范式轉變。一個可以被中斷然后被正確恢復的 Agent,比一個理論上永遠不停但遇到硬件故障就沒有退路的 Agent 更可靠。

      這個轉變還有一個不直覺的推論:對 Agent 來說,擴容往往不是加更多的副本,而是垂直給同一個 Agent 更大的機器。垂直擴容在實踐中通常意味著 checkpoint 然后 restart,這讓 Resumability 從異常路徑變成了常態操作。如果你的 Infra 沒有把恢復當作一等公民來設計,擴容本身就會變成風險源。

      現有 Infra 的抽象層錯位

      我想強調一點:下面提到的這些系統在各自的抽象層上都是正確的。問題是 Agent 的需求恰好落在它們的抽象層之外。

      Kubernetes 解決的是資源與進程隔離。 它能把容器關起來,但看不見 tool call 語義。一個被注入惡意指令的 Agent,所有危險行為都發生在合法渠道里:真實 API key、正常 HTTP 請求。對容器來說,一個 Agent 在正常調 API 和一個 Agent 在執行注入指令是完全一樣的流量。

      Firecracker 和 gVisor 提供了更細粒度的工作負載隔離。 Firecracker 的 microVM 結合了 VM 的隔離與容器的速度,gVisor 在用戶空間提供了 Linux-like 的應用內核。它們都在隔離層上做了有價值的工作,但隔離層和語義層是兩回事。它們能告訴你一個進程不應該訪問另一個進程的內存,但不能告訴你一個 Agent 不應該用它持有的 API key 去執行一個由注入指令觸發的操作。

      Modal 和 E2B 在代碼執行沙箱層做了有價值的工作。 Modal 的 Python-native 執行環境降低了部署摩擦,E2B 明確把自己定位成讓 Agent 安全執行代碼的隔離沙箱。但代碼隔離和能力隔離是不同的問題。Agent 拿到一個干凈的沙箱后,仍然可以用持有的真實 API key 調任意外部服務。崩潰恢復、副作用記錄、冪等重放,還是得在應用層自己實現。

      WASM 和 unikernels 有前景,但成熟度不夠。Python 的 C-bindings 在 WASM 里幾乎無解,unikernels 雖然縮小了攻擊面,但不保證完整的 Linux 語義——而調用 bash 恰好是 Agent 目前最強的能力之一。

      這些系統的共同特點是:它們做到了 execution isolation(把代碼關起來),但沒有提供 semantic isolation(把能力與副作用關起來)。這個區分在傳統場景里不重要,因為傳統軟件的邏輯是確定性的、可信的,Agent 打破了這個前提。

      編排層為什么補不上這個缺口

      有人會說,Temporal 或者 Netflix Conductor 不是已經解決了 durable execution 的問題嗎?它們確實解決了,但解決的是不同前提下的問題。

      Temporal 和 Conductor 提供了持久化 workflow 歷史、斷點恢復、冪等重試。這些能力在微服務編排場景里非常有價值。但它們都有一個核心前提:workflow 的代碼邏輯是確定性的、可信的。Temporal 官方明確要求 workflow code 必須 deterministic,改動可能引入 non-determinism 時需要用 Worker Versioning 或 patching APIs 來保護運行中的 workflows。

      LLM 從根本上打破了這個前提,具體來說有兩個問題。

      • 第一,Temporal 的容錯依賴 replay 機制,前提是代碼是確定性的。LLM 崩潰后重放,會走不同的決策路徑。你必須把每次 LLM 調用的結果全部緩存,replay 時直接返回緩存結果。這時候你實際上是在 Temporal 之上自己實現了一套狀態機,Temporal 的 replay 機制反而變成了額外的約束成本。

      • 第二,Temporal 的最根本的基礎假設,是代碼邏輯本身是可信的,只是 Infra 會出錯,比如網絡抖動、進程崩潰、機器故障等。但 Agent 的問題是 LLM 輸出本身不可信,Temporal 會忠實地執行一個 prompt injection 攻擊,因為從它的視角看,這就是 workflow 的正常邏輯。這意味著需要在 Temporal 的執行模型之外,獨立構建類似 Capability Gateway 的能力隔離層 ,但 Temporal 沒有這層預留集成點,它的 activity 邊界是執行邊界,不是信任邊界。你需要自己在兩套系統的接縫處維護一致性,而這個接縫處恰好是攻擊面最大的地方。

      所以 Temporal 和 Conductor 可以作為上層編排。但能力隔離與副作用語義必須在它們外部先成立,編排可以在其上組織流程,但不能替代語義地基。

      一個隱含的賭注

      這篇文章有一個隱含假設:Agent 的主流形態會收斂到長程、高權限、帶真實副作用的自主執行

      這并非是唯一可能的路徑。另一種演化方向是 Agent 保持短程、低權限、每一步都需要人類審批的模式。如果那個路徑成立,上面說的三個原語的優先級會發生變化:能力隔離仍然重要,但 effect log 和分叉恢復的緊迫性會低很多,因為人類審批本身就是一種斷點。

      我選擇押注長程自主執行這個方向,原因有兩個。第一,模型能力在快速提升,每一步都要求人類審批的模式在體驗上會越來越不可接受,就像你不會愿意每點一個鏈接都彈一次安全確認框。第二,Agent 的價值本質上來自自主性——能獨立完成一段復雜的、跨系統的工作流。如果每一步都需要人盯著,那它就只是一個更花哨的自動補全。


      即使在人類審批模式下,審批的粒度也會隨著信任積累而逐漸粗化。一個團隊第一次讓 Agent 刪庫刪表會要求人工確認,但第 10 次成功執行之后,這個審批就會被取消或者自動通過。這意味著長程自主執行是一個必然的演化方向。審批會被疲勞打敗:系統一旦跑順,人會取消審批;如果審批過多,流程壓力也會逼著你跳過

      Infra 的真正使命是做熵減

      LLM 帶來的不確定性不會消失,model 能力的提升不會讓這個問題自動解決。更強的模型意味著更多的自主權,更多的自主權意味著更大的爆炸半徑。

      LLM 本身的任務就是不停在做熵增,而 Infra 的真正使命是做熵減。

      Agent loop 決定行為。

      Infra 決定邊界。


      回到開頭的場景:沒有針對 Agent 設計的 Infra,開發者面對的是一片廢墟:數據庫已經沒了,實例處于未知狀態,客戶可能已經跑路,甚至要求索賠。如果有了對 Agent 設計的正確的基礎原語,Agent 在第 13 步失敗,開發者收到通知,打開 effect log,看到第 12 步的數據庫刪改已經完成并被封存,然后點擊恢復。執行從故障的精確斷點 fork 出來,攜帶完整上下文,不存在重復執行已完成操作的風險,絲滑地從崩潰里面恢復了。

      Infra 不應該追求模型永遠正確,而是讓模型的錯誤變得可預測、可隔離、可挽回。在模型的不可預測性周圍畫出確定性的邊界,用系統的確定性收斂模型的不確定性。

      SaaS 時代的 Infra 解決的是算力如何被高效分配。在 Agent 的時代,Infra 要解決的是不確定性如何被安全收斂

      現有的 Infra 還遠遠不夠,當 Agent 的自主權從分鐘級任務擴展到天級甚至周級,當 Agent 的容錯單位從進程變成語義執行,我們的 Infra 棧應該從執行層開始重建。

      嘉賓介紹:

      戴冠蘭,Runta 的創始人兼 CEO。Runta 正在構建面向 AI Agent 的運行時基礎設施,解決 Agent 在真實環境中安全、高效執行的核心難題。在創立 Runta 之前,作為 Cloudflare 的早期工程師,參與構建了服務全球的邊緣基礎設施;之后加入 Kong 創始團隊,從零組建中國研發中心并帶領團隊成長至 70 余人,主導網關核心系統研發。從邊緣計算到 API 網關再到 Agent 運行時,一直在做同一件事:讓關鍵基礎設施在大規模、高復雜度的環境下可靠運行。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗革命衛隊已經事實獨立

      伊朗革命衛隊已經事實獨立

      難得君
      2026-03-04 12:29:04
      東部首隊!活塞雙殺勇士鎖定季后賽 杜倫23+6波津傷退

      東部首隊!活塞雙殺勇士鎖定季后賽 杜倫23+6波津傷退

      醉臥浮生
      2026-03-21 09:56:52
      minimax 大肆抄襲kimi!開發者本人吐槽后被光速踢出群聊,怒發律師函誓要剛到底

      minimax 大肆抄襲kimi!開發者本人吐槽后被光速踢出群聊,怒發律師函誓要剛到底

      回旋鏢
      2026-03-21 07:27:27
      為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

      為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

      小撇說事
      2026-03-20 12:48:40
      仗打了1460天,澤連斯基通告全球:烏克蘭收復失地,沒有輸掉戰爭

      仗打了1460天,澤連斯基通告全球:烏克蘭收復失地,沒有輸掉戰爭

      小舟談歷史
      2026-03-21 20:36:09
      一場4:1讓國足付出巨大代價,遭遇致命重創,取勝庫拉索基本沒戲

      一場4:1讓國足付出巨大代價,遭遇致命重創,取勝庫拉索基本沒戲

      零度眼看球
      2026-03-21 06:51:59
      美宜佳回應假煙事件進展:廣東是此次假煙問題集中區,不存在“自設卷煙廠”,已出臺“四個零容忍”新規,公開承諾假煙“假一賠十”

      美宜佳回應假煙事件進展:廣東是此次假煙問題集中區,不存在“自設卷煙廠”,已出臺“四個零容忍”新規,公開承諾假煙“假一賠十”

      大風新聞
      2026-03-20 20:30:04
      首個特朗普金卡中國買家曝光,系全球WiFi之王,正被美商務部調查

      首個特朗普金卡中國買家曝光,系全球WiFi之王,正被美商務部調查

      肖茲探秘說
      2026-03-20 17:15:27
      出場數已達標!不出意外,以杜蘭特本賽季的表現保底最佳三陣!

      出場數已達標!不出意外,以杜蘭特本賽季的表現保底最佳三陣!

      田先生籃球
      2026-03-21 13:03:30
      國乒男隊壞消息!外協會勁敵連續爆猛料,秦志戩應付不來糟糕局面

      國乒男隊壞消息!外協會勁敵連續爆猛料,秦志戩應付不來糟糕局面

      三十年萊斯特城球迷
      2026-03-20 23:07:43
      擊敗奧運冠軍奪第二金!中國游泳22歲新蛙后再閃耀:看齊羅雪娟?

      擊敗奧運冠軍奪第二金!中國游泳22歲新蛙后再閃耀:看齊羅雪娟?

      李喜林籃球絕殺
      2026-03-21 20:29:11
      廣州將新增一個火車站,預計2028年投入使用!遠期規劃規模超過廣州白云站

      廣州將新增一個火車站,預計2028年投入使用!遠期規劃規模超過廣州白云站

      廣州交通電臺
      2026-03-21 15:18:09
      中考有多卷,看看廣州高中排名,第三梯隊與第一梯隊差距有多大

      中考有多卷,看看廣州高中排名,第三梯隊與第一梯隊差距有多大

      金哥說新能源車
      2026-03-21 10:53:33
      坑慘廣東隊!杜鋒做出重大決定,男籃得分王被棄用!

      坑慘廣東隊!杜鋒做出重大決定,男籃得分王被棄用!

      緋雨兒
      2026-03-21 16:26:43
      徐志勝回應創業每年虧144萬:只要能養活6個員工,就會一直辦下去

      徐志勝回應創業每年虧144萬:只要能養活6個員工,就會一直辦下去

      離離言幾許
      2026-03-20 17:17:35
      據說F35就是被伊朗這款武器擊中的

      據說F35就是被伊朗這款武器擊中的

      仰望星空的一粒沙子
      2026-03-21 08:22:02
      奇跡!這兩名烏軍硬守陣地一整年,才是真正的戰場血性

      奇跡!這兩名烏軍硬守陣地一整年,才是真正的戰場血性

      老馬拉車莫少裝
      2026-03-19 15:38:09
      年度期待?Netflix又翻車了

      年度期待?Netflix又翻車了

      來看美劇
      2026-03-21 21:03:43
      重溫1999:西方媒體報道的炸館“另一面”,17名軍事顧問遇難?

      重溫1999:西方媒體報道的炸館“另一面”,17名軍事顧問遇難?

      干史人
      2026-02-27 11:00:05
      重磅官宣!國家突然“點名”上海浦東,背后釋放重大信號!與每個浦東人有關

      重磅官宣!國家突然“點名”上海浦東,背后釋放重大信號!與每個浦東人有關

      叮當當科技
      2026-03-21 14:40:50
      2026-03-21 23:12:49
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      12188文章數 51814關注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      達利歐:霍爾木茲海峽大決戰即將爆發

      頭條要聞

      達利歐:霍爾木茲海峽大決戰即將爆發

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      田栩寧終于涼了?出軌風波影響惡劣

      財經要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態度原創

      親子
      時尚
      教育
      房產
      公開課

      親子要聞

      笑麻了!男子想請親媽照看孕期媳婦,網友:距離產生美

      這個趨勢好適合亞洲人!不用花大錢也能跟

      教育要聞

      宋清輝錯了,你的孩子只是你的孩子,絕不會是別人的孩子

      房產要聞

      全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版