網易首頁 > 網易號 > 正文申請入駐

AI Agent 很火，但 Agent Infra 準備好了嗎？

2025-12-25 17:13:31　來源: FounderPark

北京舉報

分享至

Infra 軟件的主要使用者，正從人類開發者變成 AI Agent。

a16 今年的年終預測中，也明確指出：Agent-native 的基礎設施將成為未來的基本門檻。

如今的企業后端是為「一次人類動作對應一次系統響應」的 1:1 比例而設計的。它的架構無法讓單個智能體「目標」在毫秒級時間內遞歸展開成 5,000 項子任務、數據庫查詢和內部 API 調用。 2026 年我們將見證「原生智能體」基礎設施的崛起。下一代系統必須默認應對「驚群」模式；冷啟動時間必須縮短，延遲波動必須收斂，并發上限必須躍升數個量級。唯有能承受隨之而來的工具執行洪流的平臺，才能最終勝出。

但很明顯，當下 Agent Infra 的基礎設施并不完善，不管是代碼的兼容性還是服務器的啟動優化，甚至虛擬機的配置等，都還是為人類開發者的服務模式。AI Agent 對 Infra 的要求，與人類完全不一樣。

這其中存在很多新的機會和可能性。

Agent Infra 的現狀如何，還有哪些問題沒有解決，未來更多的可能性會在哪些場景？就這些問題，我們與騰訊云 Agent Infra 團隊和 Dfiy 的技術人員聊了聊，希望能搞清楚一些事情。

??關注 Founder Park，最及時最干貨的創業分享

超 17000 人的「AI 產品市集」社群！不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者，飛書掃碼加群：

進群后，你有機會得到：

最新、最值得關注的 AI 新品資訊；
不定期贈送熱門新品的邀請碼、會員碼；
最精準的AI產品曝光渠道

01Agent 的落地范式跟 App 完全不同

之所以 Infra 層會有很大的變化，核心在于，AI Agent 今天的開發和落地范式，與以往的 App 完全不同了。

核心的區別就是不確定性的存在。

過去人類寫代碼，是靠大量 if、else 的邏輯判斷來實現功能，現在轉向了 Agent 的概率性目標規劃。以前寫下一行代碼，機器嚴格執行；現在則更像一個老師的角色——通過提示詞、RAG 這些技術，給模型提供背景信息，再設定一些原則去調教它，讓它自主處理任務。這是一種更高級、也更先進的控制方式。

傳統軟件工程里，bug 是對既定規則的違反，修 bug 就像修水管，哪里壞了補哪里就行；但在 Agent 工程里，失敗往往是模型對開發者意圖的誤解，或者說是概率上的「漂移」。你沒辦法像修水管一樣去修復一個 Agent，只能像教育孩子一樣，去引導它、說服它、約束它。

一個 AI Agent 的效果，是由模型、范式、提示詞、上下文、工具體系，還有工具調用的參數選擇等七八個因素共同決定的。這次效果不好，到底是模型的問題？提示詞的問題？還是工具的問題？根本說不清楚。這些因素環環相扣，相互影響的關系很難明確界定，這完全符合「復雜系統」的定義。

更關鍵的是，它還是一個不確定性的復雜系統。同一個問題，這一刻問和下一刻問，哪怕輸入完全一樣，輸出也可能不同。而我們過去熟悉的微服務系統，哪怕再復雜，調用關系都是清晰的，哪里報錯、誰的責任，一目了然。從這個角度來說，微服務系統其實是「簡單系統」，而且是確定性系統——只要數據庫和數據關系不變，同樣的輸入必然會得到同樣的輸出。

不只是工作流變了，交付物也完全不同了。以前交付的是確定的功能，能明確界定「行」或「不行」；現在交付的是一種概率性的能力，你很難去定義什么是絕對的「正確」。

這種差異，對工程師來說是巨大的挑戰。絕大多數工程師從入職第一天起，工作就是在確定性系統里進一步提升確定性，判斷標準只有「對」和「錯」。但現在我們面對的是不確定性的復雜系統，工作方式必須徹底轉變。

這種轉變主要體現在兩點：

第一，從工程思維轉向科學實驗思維。工程思維是預先設計好整個系統；而科學實驗思維的核心，是建立一套評測體系，把復雜系統拆解成一個個子系統，屏蔽其他子系統的干擾，去單獨評測每個子系統的影響。只有通過這種控制變量的方式，一步步摸索，才能駕馭 Agent 的復雜性。
第二，從 Day One 思維轉向 Day Two 思維。Day One 思維是代碼上線、提供服務后，再根據用戶需求去優化；但在 Agent 領域，上線第一天只代表它能跑起來了，真正的效果優化才剛剛開始。

Agent 落地遠不止靠幾個巧妙的范式，而是需要用工程方法，以確定性去駕馭不確定性，不斷優化工程基礎，才能真正落地。也正因此，針對 Agent 的 Infra 層建設，是一件非常復雜的事。

而且，Agent Infra 與過去兩年業界討論的 AI Infra 也完全不同。

AI Infra 更關注的是模型的算力、優化和推理，如何以最快、最穩定的算力服務讓模型輸出內容。

而 Agent Infra 關注的是項目的最終結果輸出，上層的邏輯、記憶和工具調用。如何編排、如何管理記憶、如何調用各種工具接口，如何更穩定在沙盒里運行的問題。

算力正變成水和電，Agent Infra 才能做出產品服務的差異化。

02但 Agent Infra 的定義還沒有完全明確

很明顯，Agent 已經成為當下 AI 應用的主要落地方式，Agent Infra 的前景一片大好。但在騰訊云的專家看來，Agent Infra 的定義和邊界，目前其實還沒有完全定型。

先區分兩個概念：一個是「本質復雜度」，一個是「偶然復雜度」。比如企業要完成一筆交易轉賬，這是必須解決的核心問題，屬于本質復雜度；而轉賬過程中可能會涉及到重試機制、權限校驗、容錯處理、數據上報等等，這些是因為工具和方法選擇帶來的附加問題，就屬于偶然復雜度。

整體上來說，Infra 層的核心作用，就是幫企業解決落地過程中的偶然復雜度。問題在于，Agent 落地的場景千差萬別——醫療場景要解決數據隱私問題，代碼場景要解決生成質量問題，不同場景的偶然復雜度完全不同，所以 Agent Infra 該解決哪些問題，沒辦法一概而論。

不同的團隊，切入 Agent Infra 的角度不同。騰訊云的思路，是聚焦于所有場景下偶然復雜度的「最大公共子集」，也就是不管什么行業、什么場景，開發者都必須面對的共性問題：安全問題、執行環境問題、工具體系問題、記憶問題、可觀測性問題。

這些共性問題里，工具和安全沙箱的需求尤為突出——畢竟 Agent 的自主運行能力，帶來的安全風險和破壞性太大了。他們從「如何駕馭自主運行」這個點切入，推出了 Agent 沙箱服務。相當于給每個 Agent 配了一臺專屬「個人電腦」，但又能把它牢牢限制在預設的工作范圍內。

Agent 沙箱的安全防護是全方位的：從虛擬化層面限制 Agent 的操作邊界，網絡層面審計對外訪問權限——哪些接口能調、哪些不能調；還有憑證層面的管理，給沙箱分配唯一的權限憑證，就像工牌一樣，既能驗證身份，又能管控訪問范圍，確保 Agent 只能在指定「工位」上完成指定任務，不會去「別的樓層」，不能去做別的事情。

這也是當下的 Agent 構建過程中偶然復雜度里的最公共的問題，如何讓用戶更放心地讓 Agent 去處理現實世界的一系列問題。

目前幾個大的海外云廠商都有推出自己的 Agent Infra 產品，Google Cloud 推出了 Vertex AI Agent Builder，AWS 推出了 Amazon Bedrock AgentCore，Microsoft Azure 則在 8 月份推出 Agent Factory，騰訊云當前主打的是剛推出不久的 Agent Runtime 解決方案。各家切入的角度有所不同，但其底層邏輯是相通的，從運維出發，先資源后應用和開發，再到安全和智能化，由下至上，先在共性需求上形成堅固基礎，然后再向差異性需求拓展。

但本質上，云廠商們現在提供的產品基本是從上個時代演進過來的，并不是用全新范式思考的。Agent 尚未像傳統 app 那樣大規模出現，大家現在并不知道完備的 Agent Infra 范式是什么樣子。

換句話說，不是看不到范式，而是它本身還不存在。

03今天的 Agent Infra，

主要在服務哪些場景？

LangChain 最近發布的 Agent 年度報告中顯示，客戶服務、研究與數據分析是目前 Agent 最火熱的兩大應用方向，用戶日常工作中最常用到的 Agent 主要有 Coding、數據處理及深度研究。

這也基本決定了目前的 Agent Infra 主要服務的場景。

Vibe Coding：除了專業的 Coding 軟件外，各類 chatbot 中的應用生成功能也提供了 Coding 的功能，并且都轉向了云端模式。如 AI 編程、前端頁面生成、云端 IDE 等。AI 生成的代碼在云端沙箱環境中運行，與本地徹底隔離，既能避免入侵風險，又具備更強的資源彈性與可擴展性。
深度研究、數據處理：辦公 Agent 可以通過代碼生成的方式完成數據清洗、數據分析、圖表制作、甚至 PPT 制作。所有代碼均在云端沙箱中運行，與本地徹底隔離，既安全可信，又具備彈性算力。
GUI Agent：依托云端各類 Use Agent 的能力，讓 Agent 能夠在不同環境中模擬人機操作，Browser Use Agent、Computer Use Agent、Mobile Use Agent 等，在云沙箱的助力下，覆蓋 Web、桌面和移動端場景，成為真正的虛擬員工。
強化學習場景：Agent 通過反復嘗試、反饋和優化逐步掌握復雜界面操作。

開發者對于 Agent Infra 層的需求，聚焦在兩點：極致的使用體驗，完善的生態兼容性，盡量降低開發成本。

具體來說，API 的統一兼容就很關鍵。如果每家廠商的 API 都不一樣，用戶接入時會非常痛苦。就像云計算早期的 S3 對象存儲 API，各家高度統一，用戶用起來就很方便。騰訊云的沙箱服務既有騰訊云標準的云 API 版本，也兼容了社區里像 E2B 這類主流方案，大大降低了用戶的接入門檻。

而且在這種情況下，閉源的系統級別方案有很大的優勢。因為極致的體驗，往往需要多個環節環環相扣、深度優化才能實現。

舉個例子，騰訊云的沙箱服務能做到全球領先的啟動速度——80 毫秒。這個技術，即使是代碼全部開源，用戶也很難復刻。這需要從底層的計算、網絡、存儲層面做鏡像加速、預熱和分發；還要在操作系統層面優化 cgroup、網絡設備命名空間的創建邏輯，破除并發競爭的鎖機制；在虛擬化層面用快照技術，避免真實開機的耗時；在 OCI 層優化進程管理，在調度層實現多集群、跨地域的智能調度。

這一系列環環相扣的不同層次的技術相互組合，以及大量的技術運營，大量的工程師的維護，才能給用戶提供這樣的一個極致的體驗。

騰訊內部的一些 Agent 產品，從傳統方案切換到 Agent Runtime 沙箱后，成本直接節省了 90% 以上。

內部比較典型的場景有兩類：

Agent 產品內的應用生成或者數據處理功能：在產品內生成一段代碼或者分析一份數據，點擊「運行」按鈕后，后端都會立刻新建一個沙箱，把代碼或 Excel 表格放進去執行。

在騰訊云的實測中，全球絕大多數同類 Agent 產品，點擊運行后都需要秒級等待；而 Agent Runtime 能做到端到端 200 毫秒，這個時間包含了沙箱啟動、代碼運行、數據通信的全流程。同時還能解決安全問題——比如不會出現代碼請求讀取系統文件，Agent 就真的把機器上系統文件返回給用戶的風險。

第二類是背后的技術支撐場景，比如 Agent 強化學習，讓 chatbot 產品搜索某個信息，它需要從海量資料里篩選出最匹配的內容。這個過程不只是從 RAG 數據庫里調取片段，還需要通過強化學習提升理解和篩選的精準度。

在強化學習的訓練階段，Agent 需要讓模型同時處理上萬個任務，相當于讓一萬個 Agent「刷題」，再通過獎勵機制判斷對錯，完成一輪訓練。這個過程中，「刷題」生成結果的時間占了整個訓練時長的 60% 以上。這個時間越短，模型的迭代效率就會大幅提升。

為什么我們會感覺到很多 Agent 產品的能力在不斷變強，背后就是這類底層技術在支撐。

04給 Agent 做基建，

創業機會在哪里？

在 Agent Infra 范式還沒有明確標準的時候，給 Agent 做基建，并不只是大廠的賽道，誰跑得快，誰能更快更好支持 Agent 的需求特性，誰就有可能更快拿下市場。

寫代碼、試想法、做原型，這些過去必須由專業工程師完成的事情，現在可以被 Agent 以極低的邊際成本實現。AI Agent 第一次把「計算」這件事，真正意義上地民主化了。很多以前算不過賬的事情，不太經濟的商業模式，突然變得合理了。

比如明星 Agent 產品 Manus 背后就使用了開源數據庫 TiDB Cloud，因為可以更好實現「看起來像獨占，實際上是虛擬化」的設計，在實現極致資源復用的同時，又能讓 Agent 在交互層面隨意折騰：可以建表、刪表、跑實驗、寫垃圾 SQL，而不會影響別人，也不用擔心副作用。

在行業內人士看來，哪些方向會是 Agent Infra 未來的新重點？

Dify 認為可調試性、記憶管理和低延遲性能是下一階段的重點。

首先是可調試性，要做可視化的推理鏈調試，讓開發者能一眼看明白 Agent 到底是在哪一步理解錯了，精準定位問題。

然后是記憶管理。不是簡單生硬的向量搜索，而是要實現語義化的情景記憶。因為 Agent 對記憶的理解，短板不在于存儲了多少歷史信息，而在于缺乏對時間維度的建模能力。當前 Agent 的時間感知能力其實很薄弱：prompt 的時間是一次性的，會話級別的時間關聯很弱，長期記憶更是處于不可控的狀態。但現實中的任務往往存在延遲決策、狀態衰減的特點——不同時間節點的信息權重不同，未來的不確定性也會影響當下的行動。

對 Agent 記憶的管理，不能再停留在「常量」的思維定式里，而是要把它看作一種「變量」。

同時，基礎性能層面的低延遲要求也得跟上。現在的流式輸出已經滿足不了需求，需要達到語音實時對話的響應速度，才能支撐更自然的交互場景。

在騰訊云的專家看來，未來應該關注的核心方向，是從保障 Agent 安全可靠運行，升級到支撐 Agent 實現智能持續進化。

在他們看來，Agent Infra 和 AI Infra 并不是割裂的，而是一種交叉關系。先把 Agent 穩定地部署到生產環境中，讓它跑起來之后，就會在實際業務里發現它的能力短板，同時產生大量的業務數據。騰訊云要做的，就是把這些數據充分利用起來，反過來對 Agent 本身，以及它背后的基礎模型進行迭代優化，最終形成一個智能進化的閉環。

但就目前來看，現有的 Infra 體系，更多還是聚焦于服務基礎大模型本身的能力與智力進化，并沒有搭建起完善的鏈路，去支撐那些已經在業務中落地的 Agent——也就是沒能利用 Agent 產生的真實行為數據、能力短板數據，來構建專屬的 Agent 進化循環。

所以，下一步 Agent Infra 的核心突破點，一定是完成從「服務 Agent 的構建與運行」，到「服務 Agent 的智能進化」的跨越。

轉載原創文章請添加微信：founderparker

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.