<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ROCK & ROLL!阿里給智能體造了個實戰演練場 | 開源

      0
      分享至

      • 克雷西 發自 凹非寺
        量子位 | 公眾號 QbitAI

      智能體終于擁有了可以海量復制的“實戰演練場”。

      阿里此次開源的新項目ROCK,解決了無法在真實環境中規模化訓練的難題。

      有了ROCK,開發者想要訓練AI執行復雜任務時可以不在“手搓”環境,直接進行標準化的一鍵部署。

      它與阿里此前的RL訓練框架ROLL形成了絕妙配合——

      ROLL負責教AI怎么思考(訓練算法),ROCK負責提供AI練習的場所(環境沙箱)。



      兩者協同作戰,構成了完整的智能體訓練閉環。

      這套組合打通了智能體訓練的鏈路,讓開發者不再被底層基建困擾,實現從單機實驗到集群大規模訓練的跨越,推開了Agentic AI規模化應用的大門。

      環境服務,智能體進化的缺失一環

      當下大語言模型正在經歷一場深刻的范式轉變,最前沿的模型已經進化為能夠與外部環境深度交互的Agentic模型。

      這種演化不僅僅是技術上的進步,更代表了AI應用場景的根本性擴展。當前幾乎所有的SOTA級模型都具備了多輪交互能力,能夠通過工具調用、代碼執行、外部API調用等方式與環境進行交互。

      簡單說就是,模型只是“能說”已經無法滿足需求,現在還要會做,它們需要調用工具、跑代碼、調API,跟外部環境真刀真槍地交互。

      從業務價值角度來看,這一轉變意義重大。許多企業的自動化鏈路需要的不僅僅是文本建議或分析報告,而是能夠直接執行的動作。

      不過要訓練好這樣的Agent,光有聰明的大模型大腦只是基礎,后續還需要對模型進行訓練,讓模型學會在特定任務環境中規劃并執行正確的決策序列。

      這是一個系統工程,得湊齊四塊拼圖:大腦(LLM)、考卷(任務描述)、教練(RL框架),以及最容易被忽視的一塊——訓練場(環境服務)。

      很多從業者面臨的困境,往往就和這個“訓練場”有關。

      如果把RL框架比作發動機,那么訓練環境就是燃料。對于Agentic模型而言,環境服務的穩定性和效率直接決定了模型的Scaling潛力,也就是能否通過大規模交互數據持續突破性能瓶頸。

      一個高效穩定的環境服務需要同時處理數千乃至數萬訓練實例,需要毫秒級的快速反饋,需要可靠地維護、回溯和重置環境狀態,還需要適配多樣化任務類型與復雜度。

      環境服務的性能瓶頸往往直接成為整個訓練流程的“卡脖子”問題。

      為突破這一制約,開發者需要雙軌并行——既要構建高度可定制化與高性能的強化學習訓練框架,也要建立高效穩定、彈性伸縮的環境管理運行體系,兩者協同才能釋放Agentic模型的真正潛力。

      ROLL框架,高性能的驅動引擎

      ROLL基于Ray構建,專門為了大規模LLM強化學習打造,覆蓋從小規模預研到數千卡百億參數生產環境的完整RL優化流程。

      ROLL提供了豐富的功能特性,涵蓋了強化學習訓練的各個方面——

      • 支持數學、代碼、推理等多領域任務聯合訓練;
      • 原生支持Agentic RL,靈活適配游戲、多輪對話、工具調用、CodeAgent等多步決策場景;
      • 深度集成Megatron-Core、Deepspeed等主流框架,支持先進的5D并行策略;
      • 具備樣本級生成管理、異步推理、異步訓練加速等核心機制。

      為了讓Agent訓練得更快,ROLL專門搞了環境異步交互和冗余采樣。而且,它用了一套非常簡潔的標準接口——GEM

      ROLL采用GEM通過極簡的env.reset和env.step兩個核心方法,大幅簡化了Agentic RL的交互過程。

      這種簡潔的設計使得任何新的業務應用都能快速適配,無需復雜的接口轉換。

      環境開發者只需實現標準的reset/step方法,即可無縫接入ROLL的訓練體系,實現從簡單游戲到復雜工具調用等各類Agentic任務的統一管理。

      ROLL作為驅動引擎,在Agentic RL訓練過程中的Scaling能力對環境服務提出了極高的具體要求——

      • 它能并發處理數萬個實例,這就要求環境服務得扛得住這么大的吞吐量;
      • 它有容錯機制,這就要求環境得有足夠的冗余;
      • 它支持異步Rollout,這就要求環境拉起要快,生命周期管理要細。

      現在,雖然訓練引擎準備好了,但環境還沒完善,就是在這個背景下,ROCK登場了。



      打造智能體訓練的標準化工廠

      ROCK(Reinforcement Open Construction Kit),名字一聽就很硬核。

      智能體訓練輕松實現規模化

      它的核心使命就一個詞——規模化。

      一個聰明的Agent,其智能的廣度與深度,取決于它所能探索世界的規模與多樣性。

      但傳統訓練里,復雜的環境太吃資源了,單機跑幾個就滿載,成為了限制Agent訓練規模的硬性天花板。

      ROCK的誕生,正是為了擊碎這塊天花板。

      它的底座也是Ray,這讓它能把一堆雜亂的計算集群,抽象成一個整齊劃一、彈性伸縮的“環境資源池”。

      以前你要配置一套集群環境,可能得折騰好幾天。現在用ROCK,只需修改配置參數,就能在分鐘級別內,自動調度和拉起成千上萬個并行訓練環境。

      開發者不必再關心繁瑣的節點管理和資源分配,可以完全聚焦于算法本身。

      而且它還支持前所未有的訓練靈活性,支持在同一集群中,同時運行同構(來自同一鏡像)與異構(來自不同鏡像)的環境。

      這既滿足了大規模重復探索的需求,也為提升Agent在網頁瀏覽、代碼編寫等不同任務間的泛化能力提供了至關重要的保障。

      告別環境“黑盒”

      除了規模大,ROCK還解決了一個讓開發者抓狂的問題——環境是個“黑盒”。

      Agent跑著跑著動作變形了,到底是因為環境出bug了,還是Agent自身出現了問題?以前很難知道。

      ROCK直接給開發者開了一個“上帝視角”——程序化的Bash交互能力

      它把Linux Shell的能力通過SDK和HTTP API開放了出來,讓開發者可以像操作本地終端一樣,與成百上千個遠程Sandbox進行深度交互。

      不論想查某個Sandbox里的文件,還是查看實時日志或者進程狀態,甚至想動態改動環境變量都沒問題。

      這種調試體驗,既保留了單機開發的直觀,又實現了分布式的規模。

      靈活部署與企業級穩定

      為了打通開發和生產那“最后一公里”,ROCK還設計了一套“一次編寫,隨處運行”的方案。

      在剛開始寫代碼的時候,你可以用本地獨立運行模式。把它當個純凈的“環境實驗室”,跑跑單元測試,驗證下你的Chrome瀏覽器裝沒裝好,文件系統能不能寫。

      這時候不需要啟動龐大的訓練流程,先確保環境本身是健康的。

      代碼寫差不多了,就可以進行本地集成調試。用ROLL一鍵拉起ROCK Sandbox,跑通整個端到端鏈路。從發指令到收反饋,全流程“所見即所得”,不需要去集群上排隊等待。

      等一切就緒,便能直接云端規模化部署。配置都不用改,ROCK幫你屏蔽掉底層的復雜度,自動擴展到成千上萬個實例。

      這樣就能夠杜絕“在我電腦上能跑,上去就掛”的玄學問題。

      對于動輒運行數小時甚至數天的Agent訓練任務而言,環境的穩定性也至關重要。

      在這方面,ROCK也是按阿里內部核心基礎設施的標準來的。

      故障隔離做得非常死,每個Sandbox都關在自己的籠子里,一個崩了絕不會連累鄰居,更不會拖垮整個服務。

      資源調度也非常精細,消除了“吵鬧鄰居”帶來的資源爭搶。環境性能穩定了,采集的數據質量才高,模型收斂才能穩。

      狀態管理則主打一個快,環境掛了秒級拉起重置,保證訓練流水線不中斷。

      ModelService,解耦的神來之筆

      在Agentic AI的開發與訓練中,開發者長期面臨一個棘手的矛盾。

      Agent自己有一套業務邏輯(比如怎么拼Prompt,怎么管理對話歷史),而訓練框架為了介入訓練,又難免會插手這個過程。

      以前的笨辦法是,訓練框架把Agent的邏輯重寫一遍。結果就是兩邊代碼打架,Agent一改邏輯,訓練代碼就得跟著改,維護過程極其繁瑣。

      ROCK用ModelService做了一個“中間人”,完美實現了解耦

      ModelService本質上是一個部署在ROCK內部的智能模型代理。它通過“提問-攔截-回答”三步,讓Agent和ROLL各司其職,完美協同。

      • 提問:Agent在Sandbox里,按自己的邏輯拼好Prompt,發起調用;
      • 攔截:ModelService把這個請求攔下來,它不直接調大模型,而是把這個“原汁原味”的Prompt通過反向通道傳遞給外面的ROLL;
      • 回答:ROLL拿到了Prompt,也就拿到了思考過程的控制權。它通過中心化的推理服務,算獎勵、做優化,最后返回答案。

      這一招至少帶來了四個好處:

      • 徹底解耦:Agent只管問,ROLL只管答。兩邊代碼互不干擾;
      • 控制權在手:ROLL雖然不干涉Prompt怎么生成的,但它掌握了最終的Prompt,依然握著訓練的主動權;
      • 節約成本:將昂貴的GPU資源集中用于ROLL的中心推理服務,ROCK Sandbox在低成本的CPU實例上大規模運行,極大降低了訓練成本;
      • 兼容性強:這種架構天然開放,解耦的設計具有天然的泛化能力,能夠輕松支持任何自定義邏輯的Agent。

      ModelService讓ROCK不僅僅是個執行環境,更是一個懂訓練的智能基礎設施。

      推開Agentic AI規模化應用的大門

      隨著ROCK的開源,阿里在Agentic AI訓練領域的版圖終于拼完了。

      ROLL提供強大的訓練引擎,ROCK則注入源源不斷的環境燃料。

      這套組合從根本上解決了Agentic模型訓練中的兩大核心挑戰——高效的學習算法和可規模化的環境服務。

      現在,通過ROCK,開發者擁有了一套標準化的解法:

      • 彈性擴展:從1到10K,分鐘級拉起海量環境;
      • 無縫銜接:本地代碼直接上云,開發生產一氣呵成;
      • 極致穩定:故障隔離,快速恢復,性能可預期;
      • 架構革新:ModelService讓業務邏輯和訓練框架徹底分手。

      ROCK與ROLL的協同,讓Agentic模型訓練不再是少數頂尖團隊的黑科技,而是變成了一套每個開發者都能上手的標準工業流程。

      ROCK正式開源,并將持續更新,誠邀您加入這場AI革命。

      不管你是想發頂會paper的研究員,還是想給公司搭自動化系統的架構師,或者是想自己搓個Agent玩玩的技術宅,ROCK都會是你繞不開的基礎設施。

      感興趣的話,項目地址我們已經替大家找好了:
      https://github.com/alibaba/ROCK
      https://github.com/alibaba/ROLL

      快速開始文檔:5分鐘完成首個Agent訓練
      https://alibaba.github.io/ROCK/docs/Getting%20Started/rockroll/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      朝鮮宣布:糧食大豐收

      朝鮮宣布:糧食大豐收

      IN朝鮮
      2025-12-07 13:13:06
      迷倒林青霞,終生未婚,這個男人的一生太傳奇

      迷倒林青霞,終生未婚,這個男人的一生太傳奇

      十點讀書
      2025-12-07 12:21:22
      新新國標電動車,沒有更安全,反而更危險,白送車企1.14萬億

      新新國標電動車,沒有更安全,反而更危險,白送車企1.14萬億

      小小河
      2025-12-07 23:27:07
      杭州師大刪除的資金明顯被曝光,花4萬差旅費只為送幾千塊文具

      杭州師大刪除的資金明顯被曝光,花4萬差旅費只為送幾千塊文具

      映射生活的身影
      2025-12-08 10:28:03
      登上訪華專機前,斯塔默攤牌:中國是“國安威脅”,但生意還想做

      登上訪華專機前,斯塔默攤牌:中國是“國安威脅”,但生意還想做

      議紀史
      2025-12-07 16:05:05
      郭德綱被約談的原因網友找到了

      郭德綱被約談的原因網友找到了

      大張的自留地
      2025-12-08 14:34:30
      存在不當影射行為,郭德綱被約談!

      存在不當影射行為,郭德綱被約談!

      微微熱評
      2025-12-08 00:51:45
      普京對中印關系表態,外交部回應

      普京對中印關系表態,外交部回應

      環球網資訊
      2025-12-08 15:46:04
      國家稅務總局山東省稅務局原副局長薛建英被查

      國家稅務總局山東省稅務局原副局長薛建英被查

      新京報
      2025-12-08 10:02:21
      原國務委員王丙乾逝世 享年100歲

      原國務委員王丙乾逝世 享年100歲

      新京報
      2025-12-08 15:55:03
      用圍巾擦地的女乘客找到了!蘇州地鐵:已和她取得聯系,正約時間送出禮物

      用圍巾擦地的女乘客找到了!蘇州地鐵:已和她取得聯系,正約時間送出禮物

      極目新聞
      2025-12-07 16:35:20
      亞馬遜云科技最強 AI Agent 陣容發布,設計火箭也不在話下

      亞馬遜云科技最強 AI Agent 陣容發布,設計火箭也不在話下

      愛范兒
      2025-12-05 16:29:19
      一片嘩然,馬克龍回國就變臉,竟然向中方發出威脅

      一片嘩然,馬克龍回國就變臉,竟然向中方發出威脅

      艾米手工作品
      2025-12-08 07:21:13
      原國務委員、第八屆全國人大常委會副委員長王丙乾同志逝世,享年100歲

      原國務委員、第八屆全國人大常委會副委員長王丙乾同志逝世,享年100歲

      新京報政事兒
      2025-12-08 15:40:30
      貴州榕江“荒野求生賽”主辦方致歉,求生賽1號選手道歉:“安全員騷擾女選手”是不實言論

      貴州榕江“荒野求生賽”主辦方致歉,求生賽1號選手道歉:“安全員騷擾女選手”是不實言論

      大風新聞
      2025-12-08 10:24:07
      15連勝本季最長!雷霆大勝爵士24戰23勝 亞歷山大缺席雙少50分

      15連勝本季最長!雷霆大勝爵士24戰23勝 亞歷山大缺席雙少50分

      醉臥浮生
      2025-12-08 11:31:23
      特斯拉上海超級工廠第400萬輛整車下線:星光金Model Y L

      特斯拉上海超級工廠第400萬輛整車下線:星光金Model Y L

      鳳凰網科技
      2025-12-08 14:29:07
      浙金中心爆雷了!諸多投資客欲哭無淚,有多名網友表示投了200萬

      浙金中心爆雷了!諸多投資客欲哭無淚,有多名網友表示投了200萬

      火山詩話
      2025-12-07 17:26:51
      道歉!下架!第一個遭遇反噬的電動車廠商來了

      道歉!下架!第一個遭遇反噬的電動車廠商來了

      數字財經智庫
      2025-12-07 10:51:38
      特朗普高市早苗涉臺通話內容曝光,他要求高市早苗不要在臺灣主權問題上挑釁中國

      特朗普高市早苗涉臺通話內容曝光,他要求高市早苗不要在臺灣主權問題上挑釁中國

      極目新聞
      2025-12-08 10:48:43
      2025-12-08 17:36:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11824文章數 176340關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      手機
      本地
      數碼
      房產
      公開課

      手機要聞

      匯頂科技為三星首款三折疊屏手機觸控方案供應商

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      數碼要聞

      惠普、戴爾等回應漲價:由于配件漲價 電腦肯定也漲價

      房產要聞

      碧桂園,開始甩賣海口家底!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无码中文字幕av免费放| 91在线播| 国产精品久久毛片av大全日韩| 自拍偷拍国产| 欧美日韩视频综合一区无弹窗| 天天看av| 免费国产一级 片内射老| 欧美成人一区二免费视频| 中国china露脸自拍性hd| 昭通市| 国产在线你懂| 精品玖玖| 在线成人av| 久久国产精品日本波多野结衣 | 免费可以在线看a∨网站| 在线无码av一区二区三区| 日韩色人妻| 天天狠天天透天天伊人| 丝袜一级A片| 国产亚洲制服免视频| 婷婷色综合| 宅男噜噜噜66一区二区| 人妻熟女一区二区aⅴ林晓雪| 97人妻白浆| 黄色影站| 强奷乱码中文字幕熟女一| 亚洲va中文字幕| 精品无码中文视频在线观看| 天天躁日日躁精品人妻| 甘谷县| 会昌县| 平南县| 人人操网| 精品中文人妻在线不卡| 台北县| 欧美色涩| 久久男人av资源网站无码软件| 午夜成人鲁丝片午夜精品| 久久无码字幕中文久久无码| 国产h视频在线观看| 欧美乱妇高清无乱码免费|