網易首頁 > 網易號 > 正文申請入駐

ROCK & ROLL！阿里給智能體造了個實戰演練場 | 開源

2025-11-26 14:22:44　來源: 量子位

香港舉報

分享至

克雷西發自凹非寺
量子位 | 公眾號 QbitAI

智能體終于擁有了可以海量復制的“實戰演練場”。

阿里此次開源的新項目ROCK，解決了無法在真實環境中規模化訓練的難題。

有了ROCK，開發者想要訓練AI執行復雜任務時可以不在“手搓”環境，直接進行標準化的一鍵部署。

它與阿里此前的RL訓練框架ROLL形成了絕妙配合——

ROLL負責教AI怎么思考（訓練算法），ROCK負責提供AI練習的場所（環境沙箱）。

兩者協同作戰，構成了完整的智能體訓練閉環。

這套組合打通了智能體訓練的鏈路，讓開發者不再被底層基建困擾，實現從單機實驗到集群大規模訓練的跨越，推開了Agentic AI規模化應用的大門。

環境服務，智能體進化的缺失一環

當下大語言模型正在經歷一場深刻的范式轉變，最前沿的模型已經進化為能夠與外部環境深度交互的Agentic模型。

這種演化不僅僅是技術上的進步，更代表了AI應用場景的根本性擴展。當前幾乎所有的SOTA級模型都具備了多輪交互能力，能夠通過工具調用、代碼執行、外部API調用等方式與環境進行交互。

簡單說就是，模型只是“能說”已經無法滿足需求，現在還要會做，它們需要調用工具、跑代碼、調API，跟外部環境真刀真槍地交互。

從業務價值角度來看，這一轉變意義重大。許多企業的自動化鏈路需要的不僅僅是文本建議或分析報告，而是能夠直接執行的動作。

不過要訓練好這樣的Agent，光有聰明的大模型大腦只是基礎，后續還需要對模型進行訓練，讓模型學會在特定任務環境中規劃并執行正確的決策序列。

這是一個系統工程，得湊齊四塊拼圖：大腦（LLM）、考卷（任務描述）、教練（RL框架），以及最容易被忽視的一塊——訓練場（環境服務）。

很多從業者面臨的困境，往往就和這個“訓練場”有關。

如果把RL框架比作發動機，那么訓練環境就是燃料。對于Agentic模型而言，環境服務的穩定性和效率直接決定了模型的Scaling潛力，也就是能否通過大規模交互數據持續突破性能瓶頸。

一個高效穩定的環境服務需要同時處理數千乃至數萬訓練實例，需要毫秒級的快速反饋，需要可靠地維護、回溯和重置環境狀態，還需要適配多樣化任務類型與復雜度。

環境服務的性能瓶頸往往直接成為整個訓練流程的“卡脖子”問題。

為突破這一制約，開發者需要雙軌并行——既要構建高度可定制化與高性能的強化學習訓練框架，也要建立高效穩定、彈性伸縮的環境管理運行體系，兩者協同才能釋放Agentic模型的真正潛力。

ROLL框架，高性能的驅動引擎

ROLL基于Ray構建，專門為了大規模LLM強化學習打造，覆蓋從小規模預研到數千卡百億參數生產環境的完整RL優化流程。

ROLL提供了豐富的功能特性，涵蓋了強化學習訓練的各個方面——

支持數學、代碼、推理等多領域任務聯合訓練；
原生支持Agentic RL，靈活適配游戲、多輪對話、工具調用、CodeAgent等多步決策場景；
深度集成Megatron-Core、Deepspeed等主流框架，支持先進的5D并行策略；
具備樣本級生成管理、異步推理、異步訓練加速等核心機制。

為了讓Agent訓練得更快，ROLL專門搞了環境異步交互和冗余采樣。而且，它用了一套非常簡潔的標準接口——GEM

ROLL采用GEM通過極簡的env.reset和env.step兩個核心方法，大幅簡化了Agentic RL的交互過程。

這種簡潔的設計使得任何新的業務應用都能快速適配，無需復雜的接口轉換。

環境開發者只需實現標準的reset/step方法，即可無縫接入ROLL的訓練體系，實現從簡單游戲到復雜工具調用等各類Agentic任務的統一管理。

ROLL作為驅動引擎，在Agentic RL訓練過程中的Scaling能力對環境服務提出了極高的具體要求——

它能并發處理數萬個實例，這就要求環境服務得扛得住這么大的吞吐量；
它有容錯機制，這就要求環境得有足夠的冗余；
它支持異步Rollout，這就要求環境拉起要快，生命周期管理要細。

現在，雖然訓練引擎準備好了，但環境還沒完善，就是在這個背景下，ROCK登場了。

打造智能體訓練的標準化工廠

ROCK（Reinforcement Open Construction Kit），名字一聽就很硬核。

智能體訓練輕松實現規模化

它的核心使命就一個詞——規模化。

一個聰明的Agent，其智能的廣度與深度，取決于它所能探索世界的規模與多樣性。

但傳統訓練里，復雜的環境太吃資源了，單機跑幾個就滿載，成為了限制Agent訓練規模的硬性天花板。

ROCK的誕生，正是為了擊碎這塊天花板。

它的底座也是Ray，這讓它能把一堆雜亂的計算集群，抽象成一個整齊劃一、彈性伸縮的“環境資源池”。

以前你要配置一套集群環境，可能得折騰好幾天。現在用ROCK，只需修改配置參數，就能在分鐘級別內，自動調度和拉起成千上萬個并行訓練環境。

開發者不必再關心繁瑣的節點管理和資源分配，可以完全聚焦于算法本身。

而且它還支持前所未有的訓練靈活性，支持在同一集群中，同時運行同構（來自同一鏡像）與異構（來自不同鏡像）的環境。

這既滿足了大規模重復探索的需求，也為提升Agent在網頁瀏覽、代碼編寫等不同任務間的泛化能力提供了至關重要的保障。

告別環境“黑盒”

除了規模大，ROCK還解決了一個讓開發者抓狂的問題——環境是個“黑盒”。

Agent跑著跑著動作變形了，到底是因為環境出bug了，還是Agent自身出現了問題？以前很難知道。

ROCK直接給開發者開了一個“上帝視角”——程序化的Bash交互能力

它把Linux Shell的能力通過SDK和HTTP API開放了出來，讓開發者可以像操作本地終端一樣，與成百上千個遠程Sandbox進行深度交互。

不論想查某個Sandbox里的文件，還是查看實時日志或者進程狀態，甚至想動態改動環境變量都沒問題。

這種調試體驗，既保留了單機開發的直觀，又實現了分布式的規模。

靈活部署與企業級穩定

為了打通開發和生產那“最后一公里”，ROCK還設計了一套“一次編寫，隨處運行”的方案。

在剛開始寫代碼的時候，你可以用本地獨立運行模式。把它當個純凈的“環境實驗室”，跑跑單元測試，驗證下你的Chrome瀏覽器裝沒裝好，文件系統能不能寫。

這時候不需要啟動龐大的訓練流程，先確保環境本身是健康的。

代碼寫差不多了，就可以進行本地集成調試。用ROLL一鍵拉起ROCK Sandbox，跑通整個端到端鏈路。從發指令到收反饋，全流程“所見即所得”，不需要去集群上排隊等待。

等一切就緒，便能直接云端規模化部署。配置都不用改，ROCK幫你屏蔽掉底層的復雜度，自動擴展到成千上萬個實例。

這樣就能夠杜絕“在我電腦上能跑，上去就掛”的玄學問題。

對于動輒運行數小時甚至數天的Agent訓練任務而言，環境的穩定性也至關重要。

在這方面，ROCK也是按阿里內部核心基礎設施的標準來的。

故障隔離做得非常死，每個Sandbox都關在自己的籠子里，一個崩了絕不會連累鄰居，更不會拖垮整個服務。

資源調度也非常精細，消除了“吵鬧鄰居”帶來的資源爭搶。環境性能穩定了，采集的數據質量才高，模型收斂才能穩。

狀態管理則主打一個快，環境掛了秒級拉起重置，保證訓練流水線不中斷。

ModelService，解耦的神來之筆

在Agentic AI的開發與訓練中，開發者長期面臨一個棘手的矛盾。

Agent自己有一套業務邏輯（比如怎么拼Prompt，怎么管理對話歷史），而訓練框架為了介入訓練，又難免會插手這個過程。

以前的笨辦法是，訓練框架把Agent的邏輯重寫一遍。結果就是兩邊代碼打架，Agent一改邏輯，訓練代碼就得跟著改，維護過程極其繁瑣。

ROCK用ModelService做了一個“中間人”，完美實現了解耦

ModelService本質上是一個部署在ROCK內部的智能模型代理。它通過“提問-攔截-回答”三步，讓Agent和ROLL各司其職，完美協同。

提問：Agent在Sandbox里，按自己的邏輯拼好Prompt，發起調用；
攔截：ModelService把這個請求攔下來，它不直接調大模型，而是把這個“原汁原味”的Prompt通過反向通道傳遞給外面的ROLL；
回答：ROLL拿到了Prompt，也就拿到了思考過程的控制權。它通過中心化的推理服務，算獎勵、做優化，最后返回答案。

這一招至少帶來了四個好處：

徹底解耦：Agent只管問，ROLL只管答。兩邊代碼互不干擾；
控制權在手：ROLL雖然不干涉Prompt怎么生成的，但它掌握了最終的Prompt，依然握著訓練的主動權；
節約成本：將昂貴的GPU資源集中用于ROLL的中心推理服務，ROCK Sandbox在低成本的CPU實例上大規模運行，極大降低了訓練成本；
兼容性強：這種架構天然開放，解耦的設計具有天然的泛化能力，能夠輕松支持任何自定義邏輯的Agent。

ModelService讓ROCK不僅僅是個執行環境，更是一個懂訓練的智能基礎設施。

推開Agentic AI規模化應用的大門

隨著ROCK的開源，阿里在Agentic AI訓練領域的版圖終于拼完了。

ROLL提供強大的訓練引擎，ROCK則注入源源不斷的環境燃料。

這套組合從根本上解決了Agentic模型訓練中的兩大核心挑戰——高效的學習算法和可規模化的環境服務。

現在，通過ROCK，開發者擁有了一套標準化的解法：

彈性擴展：從1到10K，分鐘級拉起海量環境；
無縫銜接：本地代碼直接上云，開發生產一氣呵成；
極致穩定：故障隔離，快速恢復，性能可預期；
架構革新：ModelService讓業務邏輯和訓練框架徹底分手。

ROCK與ROLL的協同，讓Agentic模型訓練不再是少數頂尖團隊的黑科技，而是變成了一套每個開發者都能上手的標準工業流程。

ROCK正式開源，并將持續更新，誠邀您加入這場AI革命。

不管你是想發頂會paper的研究員，還是想給公司搭自動化系統的架構師，或者是想自己搓個Agent玩玩的技術宅，ROCK都會是你繞不開的基礎設施。

感興趣的話，項目地址我們已經替大家找好了：
https://github.com/alibaba/ROCK
https://github.com/alibaba/ROLL

快速開始文檔：5分鐘完成首個Agent訓練
https://alibaba.github.io/ROCK/docs/Getting%20Started/rockroll/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

阿里的AI敘事，多個夸克，差了豆包

鈦媒體APP 2025-10-16 09:12:09
0 跟貼 0
英偉達4B小模型擊敗GPT-5 Pro！成本僅1/36

量子位 2025-12-08 14:31:05
0 跟貼 0

吳泳銘掌舵兩周年，阿里穿過峽谷

36氪 2025-09-24 21:50:57
8 跟貼 8

具身覺醒：AI 從感知到行動的能力躍遷

鈦媒體APP 2025-12-02 18:02:12
0 跟貼 0
100萬億Token看懵硅谷！全球一半算力寫代碼，另一半在「搞顏色」？

新智元 2025-12-06 14:03:58
278 跟貼 278

智能體驅動：企業從“界面操作”到“智能助力”的必然路徑

鈦媒體APP 2025-10-20 16:40:12
0 跟貼 0

從被群嘲到頂級玩家，阿里AI逆襲之路

華商韜略 2025-07-28 17:27:23
0 跟貼 0
DeepSeek V3到V3.2的進化之路，一文看全

機器之心Pro 2025-12-08 14:07:45
0 跟貼 0

SpatialActor通過解耦語義與幾何，為具身智能注入強魯棒空間基因

機器之心Pro 2025-12-05 13:50:29
0 跟貼 0
滴普科技趙杰輝：從技術探索到場景實效，AI 穿越 “高山與大海” 的企業賦能路徑 | WISE2025 商業之王大會

36氪 2025-12-08 17:03:10
0 跟貼 0
【GET2025】阿里云張博：全棧AI助力在線教育全場景創新

芥末堆看教育 2025-12-07 19:38:11
0 跟貼 0
誰來為監獄里的算法買單？

DeepTech深科技 2025-12-08 14:53:48
0 跟貼 0
從分鐘級等待到20倍超速：LightX2V重寫AI視頻生成速度上限

機器之心Pro 2025-12-08 14:11:58
0 跟貼 0
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執行各種任務

量子位 2025-07-18 18:08:35
0 跟貼 0
「不僅會想，還能準確去做」VLA-R1把「推理+行動」帶進真實世界

機器之心Pro 2025-10-27 19:12:41
0 跟貼 0
螞蟻想押寶更多“王興興”

華爾街見聞官方 2025-12-08 16:07:57
0 跟貼 0
中國AI Agent產業化參考范本：斑馬口語攻克的四大技術難關

機器之心Pro 2025-11-18 14:12:50
0 跟貼 0
AI機器人安全探索者，果下科技，正在做AI之父辛頓想做的事

財聯社 2025-12-08 11:58:07
0 跟貼 0
英偉達親手終結CUDA「護城河」？傳奇芯片架構師引發爭議

新智元 2025-12-08 16:57:34
0 跟貼 0
給機器人打造動力底座，微悍動力發布三款高功率密度關節模組

量子位 2025-12-08 16:57:00
0 跟貼 0
28歲財務自由，32歲淘寶總裁，蔣凡的人生有多爽文？

飯統戴老板 2025-09-09 15:05:13
0 跟貼 0
北大才女成硅谷毒梟，用算法給10萬人投du

大貓財經Pro 2025-12-04 22:26:55
4 跟貼 4
中國商界最強爽文男主，連馬云都甘拜下風

華商韜略 2025-09-09 15:52:11
0 跟貼 0
馬云的奇幻漂流：斷臂2023（中）

飯統戴老板 2025-10-17 10:36:14
0 跟貼 0
英偉達巧用8B模型秒掉GPT-5，開源了

量子位 2025-12-06 14:07:18
7 跟貼 7
真是邏輯詭才啊，這么刁鉆的角度他是咋想到的

天才設計師 2025-12-06 23:22:23
3 跟貼 3
阿里巴巴董事蔡崇信：只要能多活一天，就能有機會絕地反擊！

知了3C 2025-12-03 22:49:48
0 跟貼 0
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
0 跟貼 0
明朝最基層的治理體系縣衙的架構是怎樣的？

朝話熹史 2025-12-05 06:05:44
0 跟貼 0
這個揮金如土的闊太，才是馬云真正的靠山

雷科技 2025-11-12 16:35:27
0 跟貼 0
為什么對罪犯“越狠”，可能害處越大？——刑罰計算的底層邏輯

周兆成律師 2025-12-06 10:00:00
26 跟貼 26
達晨、華控領投，極佳視界A2輪再融2億，押注“世界模型+行動模型”原生架構

鈦媒體APP 2025-12-08 15:11:08
0 跟貼 0
在中國最缺氧的地方，看懂漢庭為什么能贏

HON酒店觀察 2025-12-06 15:28:03
0 跟貼 0
自駕西藏，阿里317大北線到底有多美？隨便一個山頭都很震撼！

布布丁動漫 2025-12-07 01:02:17
0 跟貼 0
架構解耦是統一多模態模型所必須的嗎？全新AIA損失：No

機器之心Pro 2025-12-02 14:25:38
0 跟貼 0
8比1戰勝日本隊國乒11戰全勝實現混團世界杯三連冠

澎湃新聞 2025-12-07 21:20:31
2867 跟貼 2867
人家淘寶內戰你美團湊什么熱鬧

雙子塔浩哥 2025-12-08 14:33:14
0 跟貼 0
新國標電動自行車陸續到店開售價格如何？

新京報 2025-12-08 07:19:40
7184 跟貼 7184
馬云：AI會改變一切，但不會決定一切

每日經濟新聞 2025-07-01 14:52:36
0 跟貼 0
張劍鋒：科技型企業孵化器要有一顆包容的心要打造一個開放創新的社交網絡

財聯社 2025-09-08 19:19:54
0 跟貼 0

朝鮮宣布：糧食大豐收

IN朝鮮

2025-12-07 13:13:06

迷倒林青霞，終生未婚，這個男人的一生太傳奇

十點讀書

2025-12-07 12:21:22

新新國標電動車，沒有更安全，反而更危險，白送車企1.14萬億

小小河

2025-12-07 23:27:07

杭州師大刪除的資金明顯被曝光，花4萬差旅費只為送幾千塊文具

映射生活的身影

2025-12-08 10:28:03

登上訪華專機前，斯塔默攤牌：中國是“國安威脅”，但生意還想做

議紀史

2025-12-07 16:05:05

郭德綱被約談的原因網友找到了

大張的自留地

2025-12-08 14:34:30

存在不當影射行為，郭德綱被約談！

微微熱評

2025-12-08 00:51:45

普京對中印關系表態，外交部回應

環球網資訊

2025-12-08 15:46:04

國家稅務總局山東省稅務局原副局長薛建英被查

新京報

2025-12-08 10:02:21

原國務委員王丙乾逝世享年100歲

新京報

2025-12-08 15:55:03

用圍巾擦地的女乘客找到了！蘇州地鐵：已和她取得聯系，正約時間送出禮物

極目新聞

2025-12-07 16:35:20

亞馬遜云科技最強 AI Agent 陣容發布，設計火箭也不在話下

愛范兒

2025-12-05 16:29:19

一片嘩然，馬克龍回國就變臉，竟然向中方發出威脅

艾米手工作品

2025-12-08 07:21:13

原國務委員、第八屆全國人大常委會副委員長王丙乾同志逝世，享年100歲

新京報政事兒

2025-12-08 15:40:30

貴州榕江“荒野求生賽”主辦方致歉，求生賽1號選手道歉：“安全員騷擾女選手”是不實言論

大風新聞

2025-12-08 10:24:07

15連勝本季最長！雷霆大勝爵士24戰23勝亞歷山大缺席雙少50分

醉臥浮生

2025-12-08 11:31:23

特斯拉上海超級工廠第400萬輛整車下線：星光金Model Y L

鳳凰網科技

2025-12-08 14:29:07

浙金中心爆雷了！諸多投資客欲哭無淚，有多名網友表示投了200萬

火山詩話

2025-12-07 17:26:51

道歉！下架！第一個遭遇反噬的電動車廠商來了

數字財經智庫

2025-12-07 10:51:38

特朗普高市早苗涉臺通話內容曝光，他要求高市早苗不要在臺灣主權問題上挑釁中國

極目新聞

2025-12-08 10:48:43

量子位

追蹤人工智能動態

11824文章數 176340關注度

往期回顧全部

科技要聞

外面有人挖，家里有人跑:蘋果亂成了一鍋粥

頭條要聞

40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

頭條要聞

40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

體育要聞

一位大學美術生，如何用4年成為頂級跑者？

娛樂要聞

郭麒麟也救不了的德云社了？

財經要聞

重磅！政治局會議定調明年經濟工作

汽車要聞

純電全尺寸大六座凱迪拉克"小凱雷德"申報圖曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

本地

數碼

房產

公開課

手機要聞

匯頂科技為三星首款三折疊屏手機觸控方案供應商

本地新聞

云游安徽｜七千年敘事，第一章寫在蚌埠

數碼要聞

惠普、戴爾等回應漲價：由于配件漲價電腦肯定也漲價

房產要聞

碧桂園，開始甩賣海口家底！

公開課

手機 / 數碼

房產 / 家居

ROCK & ROLL！阿里給智能體造了個實戰演練場 | 開源

環境服務，智能體進化的缺失一環

ROLL框架，高性能的驅動引擎

打造智能體訓練的標準化工廠

推開Agentic AI規模化應用的大門

外面有人挖，家里有人跑:蘋果亂成了一鍋粥

40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

一位大學美術生，如何用4年成為頂級跑者？

郭麒麟也救不了的德云社了？

重磅！政治局會議定調明年經濟工作

純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

態度原創

云游安徽｜七千年敘事，第一章寫在蚌埠

惠普、戴爾等回應漲價：由于配件漲價 電腦肯定也漲價

碧桂園，開始甩賣海口家底！

純電全尺寸大六座凱迪拉克"小凱雷德"申報圖曝光

惠普、戴爾等回應漲價：由于配件漲價電腦肯定也漲價