- 克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
智能體終于擁有了可以海量復制的“實戰演練場”。
阿里此次開源的新項目ROCK,解決了無法在真實環境中規模化訓練的難題。
有了ROCK,開發者想要訓練AI執行復雜任務時可以不在“手搓”環境,直接進行標準化的一鍵部署。
它與阿里此前的RL訓練框架ROLL形成了絕妙配合——
ROLL負責教AI怎么思考(訓練算法),ROCK負責提供AI練習的場所(環境沙箱)。
![]()
兩者協同作戰,構成了完整的智能體訓練閉環。
這套組合打通了智能體訓練的鏈路,讓開發者不再被底層基建困擾,實現從單機實驗到集群大規模訓練的跨越,推開了Agentic AI規模化應用的大門。
環境服務,智能體進化的缺失一環
當下大語言模型正在經歷一場深刻的范式轉變,最前沿的模型已經進化為能夠與外部環境深度交互的Agentic模型。
這種演化不僅僅是技術上的進步,更代表了AI應用場景的根本性擴展。當前幾乎所有的SOTA級模型都具備了多輪交互能力,能夠通過工具調用、代碼執行、外部API調用等方式與環境進行交互。
簡單說就是,模型只是“能說”已經無法滿足需求,現在還要會做,它們需要調用工具、跑代碼、調API,跟外部環境真刀真槍地交互。
從業務價值角度來看,這一轉變意義重大。許多企業的自動化鏈路需要的不僅僅是文本建議或分析報告,而是能夠直接執行的動作。
不過要訓練好這樣的Agent,光有聰明的大模型大腦只是基礎,后續還需要對模型進行訓練,讓模型學會在特定任務環境中規劃并執行正確的決策序列。
這是一個系統工程,得湊齊四塊拼圖:大腦(LLM)、考卷(任務描述)、教練(RL框架),以及最容易被忽視的一塊——訓練場(環境服務)。
很多從業者面臨的困境,往往就和這個“訓練場”有關。
如果把RL框架比作發動機,那么訓練環境就是燃料。對于Agentic模型而言,環境服務的穩定性和效率直接決定了模型的Scaling潛力,也就是能否通過大規模交互數據持續突破性能瓶頸。
一個高效穩定的環境服務需要同時處理數千乃至數萬訓練實例,需要毫秒級的快速反饋,需要可靠地維護、回溯和重置環境狀態,還需要適配多樣化任務類型與復雜度。
環境服務的性能瓶頸往往直接成為整個訓練流程的“卡脖子”問題。
為突破這一制約,開發者需要雙軌并行——既要構建高度可定制化與高性能的強化學習訓練框架,也要建立高效穩定、彈性伸縮的環境管理運行體系,兩者協同才能釋放Agentic模型的真正潛力。
ROLL框架,高性能的驅動引擎
ROLL基于Ray構建,專門為了大規模LLM強化學習打造,覆蓋從小規模預研到數千卡百億參數生產環境的完整RL優化流程。
ROLL提供了豐富的功能特性,涵蓋了強化學習訓練的各個方面——
- 支持數學、代碼、推理等多領域任務聯合訓練;
- 原生支持Agentic RL,靈活適配游戲、多輪對話、工具調用、CodeAgent等多步決策場景;
- 深度集成Megatron-Core、Deepspeed等主流框架,支持先進的5D并行策略;
- 具備樣本級生成管理、異步推理、異步訓練加速等核心機制。
為了讓Agent訓練得更快,ROLL專門搞了環境異步交互和冗余采樣。而且,它用了一套非常簡潔的標準接口——GEM
ROLL采用GEM通過極簡的env.reset和env.step兩個核心方法,大幅簡化了Agentic RL的交互過程。
這種簡潔的設計使得任何新的業務應用都能快速適配,無需復雜的接口轉換。
環境開發者只需實現標準的reset/step方法,即可無縫接入ROLL的訓練體系,實現從簡單游戲到復雜工具調用等各類Agentic任務的統一管理。
ROLL作為驅動引擎,在Agentic RL訓練過程中的Scaling能力對環境服務提出了極高的具體要求——
- 它能并發處理數萬個實例,這就要求環境服務得扛得住這么大的吞吐量;
- 它有容錯機制,這就要求環境得有足夠的冗余;
- 它支持異步Rollout,這就要求環境拉起要快,生命周期管理要細。
現在,雖然訓練引擎準備好了,但環境還沒完善,就是在這個背景下,ROCK登場了。
![]()
打造智能體訓練的標準化工廠
ROCK(Reinforcement Open Construction Kit),名字一聽就很硬核。
智能體訓練輕松實現規模化
它的核心使命就一個詞——規模化。
一個聰明的Agent,其智能的廣度與深度,取決于它所能探索世界的規模與多樣性。
但傳統訓練里,復雜的環境太吃資源了,單機跑幾個就滿載,成為了限制Agent訓練規模的硬性天花板。
ROCK的誕生,正是為了擊碎這塊天花板。
它的底座也是Ray,這讓它能把一堆雜亂的計算集群,抽象成一個整齊劃一、彈性伸縮的“環境資源池”。
以前你要配置一套集群環境,可能得折騰好幾天。現在用ROCK,只需修改配置參數,就能在分鐘級別內,自動調度和拉起成千上萬個并行訓練環境。
開發者不必再關心繁瑣的節點管理和資源分配,可以完全聚焦于算法本身。
而且它還支持前所未有的訓練靈活性,支持在同一集群中,同時運行同構(來自同一鏡像)與異構(來自不同鏡像)的環境。
這既滿足了大規模重復探索的需求,也為提升Agent在網頁瀏覽、代碼編寫等不同任務間的泛化能力提供了至關重要的保障。
告別環境“黑盒”
除了規模大,ROCK還解決了一個讓開發者抓狂的問題——環境是個“黑盒”。
Agent跑著跑著動作變形了,到底是因為環境出bug了,還是Agent自身出現了問題?以前很難知道。
ROCK直接給開發者開了一個“上帝視角”——程序化的Bash交互能力
它把Linux Shell的能力通過SDK和HTTP API開放了出來,讓開發者可以像操作本地終端一樣,與成百上千個遠程Sandbox進行深度交互。
不論想查某個Sandbox里的文件,還是查看實時日志或者進程狀態,甚至想動態改動環境變量都沒問題。
這種調試體驗,既保留了單機開發的直觀,又實現了分布式的規模。
靈活部署與企業級穩定
為了打通開發和生產那“最后一公里”,ROCK還設計了一套“一次編寫,隨處運行”的方案。
在剛開始寫代碼的時候,你可以用本地獨立運行模式。把它當個純凈的“環境實驗室”,跑跑單元測試,驗證下你的Chrome瀏覽器裝沒裝好,文件系統能不能寫。
這時候不需要啟動龐大的訓練流程,先確保環境本身是健康的。
代碼寫差不多了,就可以進行本地集成調試。用ROLL一鍵拉起ROCK Sandbox,跑通整個端到端鏈路。從發指令到收反饋,全流程“所見即所得”,不需要去集群上排隊等待。
等一切就緒,便能直接云端規模化部署。配置都不用改,ROCK幫你屏蔽掉底層的復雜度,自動擴展到成千上萬個實例。
這樣就能夠杜絕“在我電腦上能跑,上去就掛”的玄學問題。
對于動輒運行數小時甚至數天的Agent訓練任務而言,環境的穩定性也至關重要。
在這方面,ROCK也是按阿里內部核心基礎設施的標準來的。
故障隔離做得非常死,每個Sandbox都關在自己的籠子里,一個崩了絕不會連累鄰居,更不會拖垮整個服務。
資源調度也非常精細,消除了“吵鬧鄰居”帶來的資源爭搶。環境性能穩定了,采集的數據質量才高,模型收斂才能穩。
狀態管理則主打一個快,環境掛了秒級拉起重置,保證訓練流水線不中斷。
ModelService,解耦的神來之筆
在Agentic AI的開發與訓練中,開發者長期面臨一個棘手的矛盾。
Agent自己有一套業務邏輯(比如怎么拼Prompt,怎么管理對話歷史),而訓練框架為了介入訓練,又難免會插手這個過程。
以前的笨辦法是,訓練框架把Agent的邏輯重寫一遍。結果就是兩邊代碼打架,Agent一改邏輯,訓練代碼就得跟著改,維護過程極其繁瑣。
ROCK用ModelService做了一個“中間人”,完美實現了解耦
ModelService本質上是一個部署在ROCK內部的智能模型代理。它通過“提問-攔截-回答”三步,讓Agent和ROLL各司其職,完美協同。
- 提問:Agent在Sandbox里,按自己的邏輯拼好Prompt,發起調用;
- 攔截:ModelService把這個請求攔下來,它不直接調大模型,而是把這個“原汁原味”的Prompt通過反向通道傳遞給外面的ROLL;
- 回答:ROLL拿到了Prompt,也就拿到了思考過程的控制權。它通過中心化的推理服務,算獎勵、做優化,最后返回答案。
這一招至少帶來了四個好處:
- 徹底解耦:Agent只管問,ROLL只管答。兩邊代碼互不干擾;
- 控制權在手:ROLL雖然不干涉Prompt怎么生成的,但它掌握了最終的Prompt,依然握著訓練的主動權;
- 節約成本:將昂貴的GPU資源集中用于ROLL的中心推理服務,ROCK Sandbox在低成本的CPU實例上大規模運行,極大降低了訓練成本;
- 兼容性強:這種架構天然開放,解耦的設計具有天然的泛化能力,能夠輕松支持任何自定義邏輯的Agent。
ModelService讓ROCK不僅僅是個執行環境,更是一個懂訓練的智能基礎設施。
推開Agentic AI規模化應用的大門
隨著ROCK的開源,阿里在Agentic AI訓練領域的版圖終于拼完了。
ROLL提供強大的訓練引擎,ROCK則注入源源不斷的環境燃料。
這套組合從根本上解決了Agentic模型訓練中的兩大核心挑戰——高效的學習算法和可規模化的環境服務。
現在,通過ROCK,開發者擁有了一套標準化的解法:
- 彈性擴展:從1到10K,分鐘級拉起海量環境;
- 無縫銜接:本地代碼直接上云,開發生產一氣呵成;
- 極致穩定:故障隔離,快速恢復,性能可預期;
- 架構革新:ModelService讓業務邏輯和訓練框架徹底分手。
ROCK與ROLL的協同,讓Agentic模型訓練不再是少數頂尖團隊的黑科技,而是變成了一套每個開發者都能上手的標準工業流程。
ROCK正式開源,并將持續更新,誠邀您加入這場AI革命。
不管你是想發頂會paper的研究員,還是想給公司搭自動化系統的架構師,或者是想自己搓個Agent玩玩的技術宅,ROCK都會是你繞不開的基礎設施。
感興趣的話,項目地址我們已經替大家找好了:
https://github.com/alibaba/ROCK
https://github.com/alibaba/ROLL
快速開始文檔:5分鐘完成首個Agent訓練
https://alibaba.github.io/ROCK/docs/Getting%20Started/rockroll/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.