網易首頁 > 網易號 > 正文申請入駐

護航MiniMax、馴服小龍蝦，騰訊云的AI Agent“數字總部”亮了

2026-04-12 21:43:54　來源: 智東西

北京舉報

分享至

智東西
作者｜三北
編輯｜漠影

2026年開年，開源AI Agent框架OpenClaw火遍全球。它像一只不知疲倦的“龍蝦”——有記憶、能動手、低門檻，讓無數人第一次直觀感受到AI真的能干活。

然而，當企業從“請幾只試試”到“入職幾萬只”，畫風突變。這些能力強但沒受過規訓的Agent，在共享的企業基礎設施上7×24小時自主行動，帶來的是失控的恐懼：升級失憶、密鑰泄露、腳本失控、預算超限……

用馬斯克的話來說，這就好比把上膛的槍交給了一只猴子去用。

▲馬斯克X發文截圖

面對龍蝦“橫爬”的難題，騰訊云提供了新解法——為Agent打造專屬“數字辦公環境”——Agent Runtime沙箱方案，試圖為每只“龍蝦”裝上“防爆箱”和“交通規則”，讓企業能夠在不削弱龍蝦能力的前提下，實現安全可控的大規模部署。

該技術目前已在多家頭部企業落地，比如其已在知名大模型公司MiniMax的強化學習訓練等場景驗證，支持十萬級并發、百萬級吞吐零事故訓練。

其助力MiniMax的強化學習框架Forge，在大規模Agent訓練場景下做到“環境秒開、用完即刪”，讓訓練更快、更穩、成本更低，為“龍蝦軍團”的企業級落地，寫下了堅實的技術注腳。

騰訊云已宣布將Agent Runtime底層沙箱技術Cube開源，為企業提供更靈活的部署服務。

一、打通三道坎，讓企業真正接得住、管得好AI員工

OpenClaw這類AI Agent正快速被員工自發用起來，企業也看到了規模化打造“AI員工”的契機。但真要讓幾萬只“龍蝦”安全上崗，迎面就是三道躲不開的課題。

第一，現有基礎設施敢不敢接？Agent有狀態、能動手、7×24小時自主行動，幾萬個實例跑在共享環境里，狀態怎么管？行為怎么控？出了事怎么溯源？密鑰和高危權限散落各處，風險誰來兜？

第二，跑了半年對企業有什么沉淀？技能、記憶、協作關系都鎖在個人實例里，人走茶涼，Agent之間互不認識，沒法協同。企業投入了算力，最后什么都沒留下。

第三，組織真能用起來嗎？哪些操作要審批、流程怎么改、Token花了多少值不值、Agent 之間怎么協作——這些問題不解決，AI就永遠是“玩具”。

騰訊云Agent Runtime的企業級Agent治理方案，正是為了打通這三道坎，讓企業真正接得住、管得好AI員工。

1、讓基礎設施扛得住

這里解決的是“敢不敢接”的問題，核心是兩件事：Agent狀態管理和行為治理。

狀態管理方面，Agent不是無狀態服務，它會積累依賴、緩存、上下文。一直跑著成本太高，銷毀又丟狀態。Agent Runtime把狀態和算力拆開。空閑時釋放算力，請求來時原地恢復整個文件系統，不需要預設 Agent 把東西寫在哪。再加上任意時刻可做快照，一個調教好的 Agent能隨時克隆成一百個，經驗可復制、可繼承。

行為治理方面，每個Agent跑在獨立VM沙箱里，彼此隔離，一個出問題不影響其他。憑證從不落地，由網關按需注入、用完即銷毀；所有外部訪問統一過網關，高危操作可配置審批或攔截。全鏈路審計記錄每一步誰調了什么模型、花了多少Token。這樣一來，Agent的能力不削弱，但每一步都運行在可控、可追溯的邊界里。

2、數據資產留得下

人走了，經驗不能丟；框架換了，積累不能廢。

Agent Runtime讓技能（Skill）、記憶（Memory）、協作關系這三類資產從第一天起就獨立于框架存儲：技能以制品形式入庫，版本管理、權限可控，任意實例可引用；記憶從本地同步上云，跨實例共享，新Agent能繼承老員工的積累；協作關系通過 Gateway做服務發現和路由，不依賴框架私有協議。

老張離職了，他調教好的合同審核技能和行業經驗還在，新人入職直接繼承。知識和能力跟著企業走，不跟著個人或某個開源項目走。

3、組織接得住用得好

技術能跑通是一回事，組織真能用起來是另一回事。

Agent Runtime為企業提供了全局管控的能力。平臺團隊可以把Agent的初始化腳本、鏡像、配置封裝成模板，統一管理版本變更；通過策略控制所有Agent的工具調用、數據訪問、LLM調用等行為邊界；按實例、用戶、組織三層設置Token額度，成本一目了然。

但這只是起點，Agent之間怎么協同、工作流程怎么改、考核和預算怎么跟上，不同行業還在探索。Runtime先把底座搭好，讓組織先“接得住”，后續才能“用得好”。

有了這三大特性，企業才敢讓幾萬只“龍蝦”安心上崗——不是削掉它們的能力，而是讓每一步都運行在可管、可控、可繼承的底座上。

二、百萬級吞吐、十萬級并發，MiniMax“嘗鮮”實證

騰訊云Agent Runtime沙箱產品早已獲得外部頭部廠商認可，比如已率先在MiniMax等知名大模型廠商的核心訓練場景中成功落地。

自2022年初成立起，MiniMax自研了MiniMax M2.7、Hailuo 2.3等多模態大模型，并推出Forge智能體強化學習框架，提升模型復雜任務能力。AGI發展關鍵期，Agentic RL需海量交互試錯，對計算資源的安全沙箱、彈性調度與并發能力提出極高要求。

為此，MiniMax與騰訊云深度合作，基于騰訊云Agent Runtime沙箱搭建Agent Infra，實現大規模交互環境高效調度與安全隔離，顯著提升Forge訓練效率與穩定性。

▲Forge: 大規模原生Agent RL系統-MiniMax News

從場景痛點來看，Agent強化學習訓練面臨極致挑戰：MiniMax的“Forge” Agentic RL框架進行大規模強化學習訓練時，需要模擬海量并發交互環境，讓Agent在真實、可交互的執行環境中進行探索、試錯與交互。這種高強度的智能體自主進化，要求底層計算資源必須具備高并發、絕對安全隔離的沙箱環境，這對基礎設施的彈性調度、安全隔離與大規模并發性能提出了前所未有的要求。

▲Agentic RL對Infra的四大核心訴求

之所以被MiniMax選中，騰訊云Agent沙箱在此場景中展現出突出的優勢：

1、毫秒級啟動：80ms極速啟動，P99延遲<1秒，讓訓練流程永不卡頓。通過資源池化、鏡像預熱及快照技術，確保毫秒級交付可用實例。

▲ 資源池化與快照恢復：80ms交付可用沙箱

2、百萬級吞吐、十萬級并發：每分鐘可并發創建六十萬沙箱實例，成功率高達99.99%，完美承載Agentic RL的海量試錯需求。依托騰訊云百萬核資源池，系統可每分鐘擴容超十萬實例，從容應對高并發挑戰。

▲騰訊云Agent Runtime支持每分鐘60W沙箱創建

3、復雜環境模擬：支持代碼、瀏覽器甚至OSWorld等全場景沙箱，為模型訓練提供媲美真實世界的“練兵場”。無論是Browser Use Agent的網頁操作，還是Computer Use Agent的桌面辦公，都能在安全隔離的環境中模擬。

4、Agent First工具鏈：提供對外開源的SDK、API、CLI、Cookbook，兼容E2B協議，并深度集成主流訓練框架，讓MiniMax團隊能無縫對接。

MiniMax Agent首席架構師阿島提到：“騰訊云的沙箱產品，一開始就是面向我們這樣的場景去設計的。”

“一開始我們在K8s上跑，發現真的不行，并發完全起不來。后來我們和騰訊云走到一起，有了沙箱方案。這就是產業、行業在最前沿的AI技術上，需要的基礎設施和能力。”阿島稱，“在M2.7開始，我們已經能讓Agent自主驅動絕大部分Agentic RL過程。這里面任何一個環節卡住，最有可能卡住的就是沙箱環節，它就會極大的影響我的模型的迭代。騰訊云的沙箱高性能、高穩定性、低延遲，對我們的訓練迭代速度至關重要。”

MiniMax的案例證明，騰訊云Agent Runtime一方面是支持Agent運行的“數字總部”，更深層次，其是支持最前沿AI技術訓練的生產級基礎設施。

▲四類沙箱×多種交互方式，覆蓋主流Agentic RL場景

無論是企業里成千上萬只OpenClaw的日常上崗，還是Agentic RL場景下百萬級吞吐、十萬級并發的極限訓練，其實都在驗證同一件事，Agent時代需要一種不同于傳統云計算的新型運行底座。

結語：AI Agent加速普及，可控、可用是關鍵

OpenClaw的爆火，證明了AI Agent的生產力價值，也提醒我們安全可控的重要性。讓每一只龍蝦都在“跑得穩、管得住、看得清、養得起”的規矩下安全運行，企業才能真正從“試用AI”走向“與AI協同工作”。

從護航MiniMax模型訓練，到給OpenClaw龍蝦上規矩，騰訊云正以扎實的底層能力，為智能體時代鋪就安全可控的基礎設施。當每一只AI龍蝦都能在“防爆箱”中安心工作，企業大規模擁抱AI的爆發時刻，才真正到來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.