Infra 軟件的主要使用者,正從人類開發者變成 AI Agent。
a16 今年的年終預測中,也明確指出:Agent-native 的基礎設施將成為未來的基本門檻。
如今的企業后端是為「一次人類動作對應一次系統響應」的 1:1 比例而設計的。它的架構無法讓單個智能體「目標」在毫秒級時間內遞歸展開成 5,000 項子任務、數據庫查詢和內部 API 調用。 2026 年我們將見證「原生智能體」基礎設施的崛起。下一代系統必須默認應對「驚群」模式;冷啟動時間必須縮短,延遲波動必須收斂,并發上限必須躍升數個量級。唯有能承受隨之而來的工具執行洪流的平臺,才能最終勝出。
但很明顯,當下 Agent Infra 的基礎設施并不完善,不管是代碼的兼容性還是服務器的啟動優化,甚至虛擬機的配置等,都還是為人類開發者的服務模式。AI Agent 對 Infra 的要求,與人類完全不一樣。
這其中存在很多新的機會和可能性。
Agent Infra 的現狀如何,還有哪些問題沒有解決,未來更多的可能性會在哪些場景?就這些問題,我們與騰訊云 Agent Infra 團隊 和 Dfiy 的技術人員聊了聊,希望能搞清楚一些事情。
??關注 Founder Park,最及時最干貨的創業分享
超 17000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。
邀請從業者、開發人員和創業者,飛書掃碼加群:
進群后,你有機會得到:
最新、最值得關注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準的AI產品曝光渠道
之所以 Infra 層會有很大的變化,核心在于,AI Agent 今天的開發和落地范式,與以往的 App 完全不同了。
核心的區別就是不確定性的存在。
過去人類寫代碼,是靠大量 if、else 的邏輯判斷來實現功能,現在轉向了 Agent 的概率性目標規劃。以前寫下一行代碼,機器嚴格執行;現在則更像一個老師的角色——通過提示詞、RAG 這些技術,給模型提供背景信息,再設定一些原則去調教它,讓它自主處理任務。這是一種更高級、也更先進的控制方式。
傳統軟件工程里,bug 是對既定規則的違反,修 bug 就像修水管,哪里壞了補哪里就行;但在 Agent 工程里,失敗往往是模型對開發者意圖的誤解,或者說是概率上的「漂移」。你沒辦法像修水管一樣去修復一個 Agent,只能像教育孩子一樣,去引導它、說服它、約束它。
一個 AI Agent 的效果,是由模型、范式、提示詞、上下文、工具體系,還有工具調用的參數選擇等七八個因素共同決定的。這次效果不好,到底是模型的問題?提示詞的問題?還是工具的問題?根本說不清楚。這些因素環環相扣,相互影響的關系很難明確界定,這完全符合「復雜系統」的定義。
更關鍵的是,它還是一個不確定性的復雜系統。同一個問題,這一刻問和下一刻問,哪怕輸入完全一樣,輸出也可能不同。而我們過去熟悉的微服務系統,哪怕再復雜,調用關系都是清晰的,哪里報錯、誰的責任,一目了然。從這個角度來說,微服務系統其實是「簡單系統」,而且是確定性系統——只要數據庫和數據關系不變,同樣的輸入必然會得到同樣的輸出。
不只是工作流變了,交付物也完全不同了。以前交付的是確定的功能,能明確界定「行」或「不行」;現在交付的是一種概率性的能力,你很難去定義什么是絕對的「正確」。
這種差異,對工程師來說是巨大的挑戰。絕大多數工程師從入職第一天起,工作就是在確定性系統里進一步提升確定性,判斷標準只有「對」和「錯」。但現在我們面對的是不確定性的復雜系統,工作方式必須徹底轉變。
這種轉變主要體現在兩點:
第一,從工程思維轉向科學實驗思維。工程思維是預先設計好整個系統;而科學實驗思維的核心,是建立一套評測體系,把復雜系統拆解成一個個子系統,屏蔽其他子系統的干擾,去單獨評測每個子系統的影響。只有通過這種控制變量的方式,一步步摸索,才能駕馭 Agent 的復雜性。
第二,從 Day One 思維轉向 Day Two 思維。Day One 思維是代碼上線、提供服務后,再根據用戶需求去優化;但在 Agent 領域,上線第一天只代表它能跑起來了,真正的效果優化才剛剛開始。
Agent 落地遠不止靠幾個巧妙的范式,而是需要用工程方法,以確定性去駕馭不確定性,不斷優化工程基礎,才能真正落地。也正因此,針對 Agent 的 Infra 層建設,是一件非常復雜的事。
而且,Agent Infra 與過去兩年業界討論的 AI Infra 也完全不同。
AI Infra 更關注的是模型的算力、優化和推理,如何以最快、最穩定的算力服務讓模型輸出內容。
而 Agent Infra 關注的是項目的最終結果輸出,上層的邏輯、記憶和工具調用。如何編排、如何管理記憶、如何調用各種工具接口,如何更穩定在沙盒里運行的問題。
算力正變成水和電,Agent Infra 才能做出產品服務的差異化。
02但 Agent Infra 的定義還沒有完全明確
很明顯,Agent 已經成為當下 AI 應用的主要落地方式,Agent Infra 的前景一片大好。但在騰訊云的專家看來,Agent Infra 的定義和邊界,目前其實還沒有完全定型。
先區分兩個概念:一個是「本質復雜度」,一個是「偶然復雜度」。比如企業要完成一筆交易轉賬,這是必須解決的核心問題,屬于本質復雜度;而轉賬過程中可能會涉及到重試機制、權限校驗、容錯處理、數據上報等等,這些是因為工具和方法選擇帶來的附加問題,就屬于偶然復雜度。
整體上來說,Infra 層的核心作用,就是幫企業解決落地過程中的偶然復雜度。問題在于,Agent 落地的場景千差萬別——醫療場景要解決數據隱私問題,代碼場景要解決生成質量問題,不同場景的偶然復雜度完全不同,所以 Agent Infra 該解決哪些問題,沒辦法一概而論。
不同的團隊,切入 Agent Infra 的角度不同。騰訊云的思路,是聚焦于所有場景下偶然復雜度的「最大公共子集」,也就是不管什么行業、什么場景,開發者都必須面對的共性問題:安全問題、執行環境問題、工具體系問題、記憶問題、可觀測性問題。
這些共性問題里,工具和安全沙箱的需求尤為突出——畢竟 Agent 的自主運行能力,帶來的安全風險和破壞性太大了。他們從「如何駕馭自主運行」這個點切入,推出了 Agent 沙箱服務。相當于給每個 Agent 配了一臺專屬「個人電腦」,但又能把它牢牢限制在預設的工作范圍內。
Agent 沙箱的安全防護是全方位的:從虛擬化層面限制 Agent 的操作邊界,網絡層面審計對外訪問權限——哪些接口能調、哪些不能調;還有憑證層面的管理,給沙箱分配唯一的權限憑證,就像工牌一樣,既能驗證身份,又能管控訪問范圍,確保 Agent 只能在指定「工位」上完成指定任務,不會去「別的樓層」,不能去做別的事情。
這也是當下的 Agent 構建過程中偶然復雜度里的最公共的問題,如何讓用戶更放心地讓 Agent 去處理現實世界的一系列問題。
目前幾個大的海外云廠商都有推出自己的 Agent Infra 產品,Google Cloud 推出了 Vertex AI Agent Builder,AWS 推出了 Amazon Bedrock AgentCore,Microsoft Azure 則在 8 月份推出 Agent Factory,騰訊云當前主打的是剛推出不久的 Agent Runtime 解決方案。各家切入的角度有所不同,但其底層邏輯是相通的,從運維出發,先資源后應用和開發,再到安全和智能化,由下至上,先在共性需求上形成堅固基礎,然后再向差異性需求拓展。
![]()
但本質上,云廠商們現在提供的產品基本是從上個時代演進過來的,并不是用全新范式思考的。Agent 尚未像傳統 app 那樣大規模出現,大家現在并不知道完備的 Agent Infra 范式是什么樣子。
換句話說,不是看不到范式,而是它本身還不存在。
03今天的 Agent Infra,
主要在服務哪些場景?
LangChain 最近發布的 Agent 年度報告中顯示,客戶服務、研究與數據分析是目前 Agent 最火熱的兩大應用方向,用戶日常工作中最常用到的 Agent 主要有 Coding、數據處理及深度研究。
這也基本決定了目前的 Agent Infra 主要服務的場景。
Vibe Coding:除了專業的 Coding 軟件外,各類 chatbot 中的應用生成功能也提供了 Coding 的功能,并且都轉向了云端模式。如 AI 編程、前端頁面生成、云端 IDE 等。AI 生成的代碼在 云端沙箱環境 中運行,與本地徹底隔離,既能避免入侵風險,又具備更強的 資源彈性與可擴展性。
深度研究、數據處理:辦公 Agent 可以通過代碼生成的方式完成數據清洗、數據分析、圖表制作、甚至 PPT 制作。所有代碼均在云端沙箱中運行,與本地徹底隔離,既安全可信,又具備彈性算力。
GUI Agent:依托云端各類 Use Agent 的能力,讓 Agent 能夠在不同環境中模擬人機操作,Browser Use Agent、Computer Use Agent、Mobile Use Agent 等,在云沙箱的助力下,覆蓋 Web、桌面和移動端場景,成為真正的 虛擬員工。
強化學習場景:Agent 通過反復嘗試、反饋和優化逐步掌握復雜界面操作。
開發者對于 Agent Infra 層的需求,聚焦在兩點:極致的使用體驗,完善的生態兼容性,盡量降低開發成本。
具體來說,API 的統一兼容就很關鍵。如果每家廠商的 API 都不一樣,用戶接入時會非常痛苦。就像云計算早期的 S3 對象存儲 API,各家高度統一,用戶用起來就很方便。騰訊云的沙箱服務既有騰訊云標準的云 API 版本,也兼容了社區里像 E2B 這類主流方案,大大降低了用戶的接入門檻。
而且在這種情況下,閉源的系統級別方案有很大的優勢。因為極致的體驗,往往需要多個環節環環相扣、深度優化才能實現。
舉個例子,騰訊云的沙箱服務能做到全球領先的啟動速度——80 毫秒。這個技術,即使是代碼全部開源,用戶也很難復刻。這需要從底層的計算、網絡、存儲層面做鏡像加速、預熱和分發;還要在操作系統層面優化 cgroup、網絡設備命名空間的創建邏輯,破除并發競爭的鎖機制;在虛擬化層面用快照技術,避免真實開機的耗時;在 OCI 層優化進程管理,在調度層實現多集群、跨地域的智能調度。
這一系列環環相扣的不同層次的技術相互組合,以及大量的技術運營,大量的工程師的維護,才能給用戶提供這樣的一個極致的體驗。
騰訊內部的一些 Agent 產品,從傳統方案切換到 Agent Runtime 沙箱后,成本直接節省了 90% 以上。
內部比較典型的場景有兩類:
Agent 產品內的應用生成或者數據處理功能:在產品內生成一段代碼或者分析一份數據,點擊「運行」按鈕后,后端都會立刻新建一個沙箱,把代碼或 Excel 表格放進去執行。
在騰訊云的實測中,全球絕大多數同類 Agent 產品,點擊運行后都需要秒級等待;而 Agent Runtime 能做到端到端 200 毫秒,這個時間包含了沙箱啟動、代碼運行、數據通信的全流程。同時還能解決安全問題——比如不會出現代碼請求讀取系統文件,Agent 就真的把機器上系統文件返回給用戶的風險。
第二類是背后的技術支撐場景,比如 Agent 強化學習,讓 chatbot 產品搜索某個信息,它需要從海量資料里篩選出最匹配的內容。這個過程不只是從 RAG 數據庫里調取片段,還需要通過強化學習提升理解和篩選的精準度。
在強化學習的訓練階段,Agent 需要讓模型同時處理上萬個任務,相當于讓一萬個 Agent「刷題」,再通過獎勵機制判斷對錯,完成一輪訓練。這個過程中,「刷題」生成結果的時間占了整個訓練時長的 60% 以上。這個時間越短,模型的迭代效率就會大幅提升。
為什么我們會感覺到很多 Agent 產品的能力在不斷變強,背后就是這類底層技術在支撐。
04給 Agent 做基建,
創業機會在哪里?
在 Agent Infra 范式還沒有明確標準的時候,給 Agent 做基建,并不只是大廠的賽道,誰跑得快,誰能更快更好支持 Agent 的需求特性,誰就有可能更快拿下市場。
寫代碼、試想法、做原型,這些過去必須由專業工程師完成的事情,現在可以被 Agent 以極低的邊際成本實現。AI Agent 第一次把「計算」這件事,真正意義上地民主化了。很多以前算不過賬的事情,不太經濟的商業模式,突然變得合理了。
比如明星 Agent 產品 Manus 背后就使用了開源數據庫 TiDB Cloud,因為可以更好實現「看起來像獨占,實際上是虛擬化」的設計,在實現極致資源復用的同時,又能讓 Agent 在交互層面隨意折騰:可以建表、刪表、跑實驗、寫垃圾 SQL,而不會影響別人,也不用擔心副作用。
在行業內人士看來,哪些方向會是 Agent Infra 未來的新重點?
Dify 認為可調試性、記憶管理和低延遲性能是下一階段的重點。
首先是可調試性,要做可視化的推理鏈調試,讓開發者能一眼看明白 Agent 到底是在哪一步理解錯了,精準定位問題。
然后是記憶管理。不是簡單生硬的向量搜索,而是要實現語義化的情景記憶。因為 Agent 對記憶的理解,短板不在于存儲了多少歷史信息,而在于缺乏對時間維度的建模能力。當前 Agent 的時間感知能力其實很薄弱:prompt 的時間是一次性的,會話級別的時間關聯很弱,長期記憶更是處于不可控的狀態。但現實中的任務往往存在延遲決策、狀態衰減的特點——不同時間節點的信息權重不同,未來的不確定性也會影響當下的行動。
對 Agent 記憶的管理,不能再停留在「常量」的思維定式里,而是要把它看作一種「變量」。
同時,基礎性能層面的低延遲要求也得跟上。現在的流式輸出已經滿足不了需求,需要達到語音實時對話的響應速度,才能支撐更自然的交互場景。
在騰訊云的專家看來,未來應該關注的核心方向,是從保障 Agent 安全可靠運行,升級到支撐 Agent 實現智能持續進化。
在他們看來,Agent Infra 和 AI Infra 并不是割裂的,而是一種交叉關系。先把 Agent 穩定地部署到生產環境中,讓它跑起來之后,就會在實際業務里發現它的能力短板,同時產生大量的業務數據。騰訊云要做的,就是把這些數據充分利用起來,反過來對 Agent 本身,以及它背后的基礎模型進行迭代優化,最終形成一個智能進化的閉環。
但就目前來看,現有的 Infra 體系,更多還是聚焦于服務基礎大模型本身的能力與智力進化,并沒有搭建起完善的鏈路,去支撐那些已經在業務中落地的 Agent——也就是沒能利用 Agent 產生的真實行為數據、能力短板數據,來構建專屬的 Agent 進化循環。
所以,下一步 Agent Infra 的核心突破點,一定是完成從「服務 Agent 的構建與運行」,到「服務 Agent 的智能進化」的跨越。
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.