<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      補齊OpenClaw進化拼圖!AReaL v1.0開源,智能體強化學習一鍵接入

      0
      分享至



      機器之心編輯部

      2026 開年已兩個月,Agent 依然是全球最引人注目的 AI 賽道之一。OpenClaw(原 Clawbot)掀起的那波 Agent 熱潮至今仍在發酵,甚至讓「一人公司」概念第一次真正有了落地的可能性。

      就在近日,OpenClaw 超越了 React、Linux,成為 GitHub 上 Star 量最多的非資源/教程類開源軟件項目。



      從 Browser Agent 到 Coding Agent,從個人到企業級工作流 Agent,最直觀的感受是:Agent 能做的事越來越多了。

      與此同時,包括 LangChain、Claude Code、OpenClaw 等在內,各類運行時框架不斷拓寬智能體的能力邊界,使它們勝任更復雜的任務。雖然這些框架賦予了 Agent 更加廣闊的應用潛力,但如何讓它們在真實環境中持續提升并形成自我進化能力,仍缺乏成熟的體系支撐。

      尤其是被寄予厚望、用于支撐 Agent 在復雜、多輪、長程任務中進化的強化學習(RL)訓練,在工程落地上面臨多重阻力,限制了當前 Agent 的能力天花板。

      AReaL v1.0 的發布為行業帶來了積極的信號:一個開箱即用的 Agentic RL 訓練底座已經成形。

      由螞蟻和清華大學聯合打造的開源強化學習框架 AReaL,經過近一年的迭代打磨,迎來了里程碑式的穩定版本。作為一整套面向 Agent 的開源全異步強化學習訓練框架,此次最受矚目的進展在于讓「Agent 一鍵接入 RL 訓練」成為現實,重新定義了智能體強化學習的范式。



      • GitHub 倉庫:https://github.com/inclusionAI/AReaL
      • 論文:https://arxiv.org/abs/2505.24298

      在 Agentic RL 算法系統協同創新的加持下,AReaL v1.0 可以兼容任意 Agent 框架,僅需修改一個接口地址即可無縫接入 RL 訓練,包括最近火熱的 OpenClaw,極大降低了強化學習的訓練門檻。不僅如此,AReaL v1.0 還引入了系統化的 AI 輔助開發體系,并基于深度定制開發的 PyTorch 原生訓練引擎 Archon 實現了千億 MoE 模型的端到端訓練,引領了下一代 AI Infra 工程范式的革新。

      零代碼接入 OpenClaw 訓練

      傳統的 Agent 強化學習訓練,往往需要開發者深入理解底層訓練框架、修改 Agent 運行時代碼、甚至重構整個數據流水線。而 AReaL v1.0 徹底打破了這一壁壘 ——你的 Agent 框架不需要改動一行代碼。

      讓我們用一個實際例子來看看這有多簡單。

      完整案例:https://github.com/inclusionAI/AReaL/tree/main/examples/openclaw

      第一步:啟動 RL 訓練服務

      uv run python3 examples/openclaw/train.py --config examples/openclaw/config.yaml

      啟動后,你會看到類似這樣的輸出:

      (AReaL) Proxy gateway available at http://x.x.x.x:xx

      記下這個網關地址,它就是連接你的 Agent 與 RL 訓練的橋梁。

      第二步:配置你的 Agent

      我們以 ZeroClaw 為例,它是 OpenClaw 的一個變體。只需要修改一個配置文件,將 API 地址指向 AReaL 網關:

      # ~/.zeroclaw/config.tomldefault_provider = "localhost"api_key = "sk-sess-xxxxxxxxxxxx" # 從AReaL獲取

      [model_providers.localhost]base_url = "http://

      " # AReaL代理網關地址

      就這樣,配置完成。你的 ZeroClaw Agent 現在每一次 LLM 調用都會自動被記錄,用于強化學習訓練。

      第三步:正常使用你的 Agent

      啟動智能體,像往常一樣交互:

      zeroclaw channel start # 啟動Discord/Slack/CLI等任意交互渠道

      你可以讓 Agent 寫代碼、查資料、執行任務 ——一切照常。在后臺,AReaL 悄悄記錄著每一次對話輪次中用于強化學習訓練的數據。

      第四步:打分反饋,讓 Agent 進化

      當一個任務完成后,給 Agent 的表現打個分:

      python set_reward.py http://

      --api-key sk-sess-xxx --reward 1.0

      就這么簡單。AReaL 會自動將這次交互軌跡與獎勵信號打包,送入訓練流水線。

      當收集到足夠的交互軌跡后(由配置中的 batch_size 控制),系統會自動觸發一次訓練迭代,更新模型權重。更神奇的是:更新后的權重會無縫應用到后續的推理請求中。

      你的 Agent 仍在訓練過程中運行,不需要重啟,不需要重新加載模型 —— 它會在你不知不覺間變得更聰明

      架構破局:用「異步訓練」與「代理網關」打通 Agent 自我進化

      AReaL 是怎么做到讓 OpenClaw 自我進化的?這里涉及到兩個核心的架構設計:「全異步訓練」和「代理網關」。

      AReaL 的核心架構創新之一在于強化學習中的訓練、推理完全解耦。推理引擎流式生成軌跡,訓練引擎持續消費樣本,兩者在獨立 GPU 上同時運行。

      通過精心設計的 PPO 算法修正和陳舊度控制機制,AReaL 在保證訓練穩定性的同時,實現了 2 倍以上的吞吐提升

      這種設計在智能體訓練場景中有更大的優勢 —— 訓練引擎異步更新參數,不會阻塞智能體的推理,讓你的 OpenClaw 一邊學習一邊全力工作



      AReaL 的代理網關和全異步強化學習架構

      為了適配任何智能體框架,AReaL 選擇將「協議」作為統一標準,設計了一個代理網關(Proxy Gateway)。這個網關提供了 OpenAI/Anthropic API 協議的推理服務,會將所有輸入的請求重定向到本地的推理引擎上(如 SGLang、vLLM)進行推理計算,用起來就像一個普通的推理服務。

      但是,這個代理網關不止有路由的功能 —— 它會在進行推理的同時,捕獲每一次 LLM 交互中輸入輸出的 Token 級信息。在這條軌跡結束后,AReaL 會將后一步的獎勵值進行反向傳播,為每一輪的輸入輸出賦予獎勵值;最終,將它們導出為獨立的訓練樣本。這樣,早期的決策也能獲得合理的獎勵分配,讓模型學會「為長遠目標做出正確的早期選擇」。

      傳統方案中,推理時的文本需要在訓練時重新 tokenize,可能因 tokenizer 配置差異導致 token 序列不一致。AReaL 的獨立導出方案從根本上避免了這個問題:推理時產生的 token IDs 直接被緩存,訓練時原樣使用。發送給訓練引擎進行梯度計算的 tokens 就是推理引擎生成的 tokens,100% 一致。



      AReaL 中具體的多輪交互應用案例

      基于以上的架構設計,AReaL 能夠支持任意 Agent 框架的訓練 —— 無論是 OpenClaw 還是你自己搭建的 Agent,只需要將 API 地址指向 AReaL 的代理網關,就能自動接入強化學習訓練。

      開發者不用改動原有 Agent 代碼或業務邏輯,即可開啟 RL 訓練流程。這意味著,原本碎片化的 Agent 接口被收斂成了一層標準化的協議級 RL 入口,讓「任意 Agent 可訓」第一次在工程上真正可行

      然而,同一個 prompt 可能產生多條不同軌跡(如多次采樣),并且每條軌跡也會被 AReaL 打散成為多條獨立的輸入輸出。一個批次的數據之間往往存在大量共享前綴。傳統訓練方式對每條軌跡獨立計算,造成大量冗余計算。

      AReaL 為了解決這個問題,引入了基于 Trie(前綴樹)的序列打包方案:

      • 構建 Trie 結構:將共享前綴的序列壓縮到同一個樹結構中
      • 樹狀注意力計算:AReaL-DTA 方法實現了完整的樹狀注意力 forward-backward 方案,讓共享前綴僅計算一次

      樹狀注意力帶來了顯著的性能提升:單 Worker 訓練吞吐最高提升 8.31x,集群整體吞吐最高提升 6.20x,相比于基線方案減少超過 50% 的 GPU 顯存占用



      針對 Agentic RL 訓練的樹狀注意力實現圖示,詳細參考論文:https://arxiv.org/pdf/2602.00482

      用 AI 實現引擎重構:AI Infra 的工程范式革新

      除了降低 Agent RL 訓練的門檻,AReaL v1.0 的發布還帶來了訓練引擎的重磅更新

      在大規模 RL 訓練領域,Megatron-LM 是業界標桿。然而,它的依賴安裝需要 Docker 環境和繁瑣的 C++ 編譯,代碼層層嵌套,難以調試和擴展。團隊一直在思考:能否用 PyTorch 原生 API 實現同等能力的分布式訓練引擎

      答案是 AReaL 團隊基于 torchtitan 深度定制的訓練引擎 Archon ——一個支持完整 5D 并行(DP、TP、PP、CP、EP)的 PyTorch 原生訓練引擎

      • 數據并行 (DP):基于 FSDP2 fully_shard,相比 Megatron 默認的數據并行進一步拆分了模型參數
      • 流水線并行 (PP):基于 torch.distributed.pipelining,支持ZeroBublePipeline、 1F1B 、 Interleaved1F1B 等調度方式
      • 張量并行 (TP):基于 DTensor,使用 ColwiseParallel / RowwiseParallel 切分權重
      • 上下文并行 (CP):基于 Ulysses Sequence Parallelism,通過 all-to-all 分布式處理長序列
      • 專家并行 (EP):基于 all-to-all + grouped_mm,支持 EP + ETP 2D 分片

      令人驚訝的是,這樣一個復雜的分布式系統,從零開始實現到驗證正確性,僅用了 1 人?月的工作量——32 天內通過累計 72 萬行代碼修改完整實現了 Archon 引擎,并驗證了它能訓練千億參數 MoE 模型。

      創造這一效率奇跡的秘訣在于 AreaL 集成的一整套 AI 輔助開發體系,實現了復雜工程開發的高度自動化。



      基于 AI 編程的 archon 引擎代碼修改統計,來源 https://zhuanlan.zhihu.com/p/2003269671630165191

      這些駕馭 AI coding 的「武功秘籍」完全開源,讓每位開發者都能借助「專業團隊」,在 AReaL 中加速自己的 Agent RL 應用開發:

      一是為 AReaL 各核心模塊配置領域專家 Agents,讓它們具備模塊級架構認知,并在代碼修改時提供上下文相關的精準指導。

      二是引入以命令驅動的引導式工作流,通過一系列預設的一句話指令將常見開發任務流程化、標準化,讓開發范式從「手寫實現」轉向「聲明需求」,由 AI 自動完成軟件工程中最常見、最耗時的運維任務。

      三是在真實開發場景中,AReaL 提供的特定 Agent 全程自動化完成任務規劃、代碼生成、自動校驗到 PR 創建。



      AReaL AI Coding Sub-Agents(圖片由 AI 輔助生成)

      這套 AI 輔助開發體系在加速 Archon 引擎落地之外,也釋放出一個清晰的信號:AI 輔助編程不僅僅是效率工具,同樣具備了深度參與復雜系統開發的真實生產力。這一「用 AI 造訓 AI 工具」的工程實踐,重新定義了效率邊界。

      相應地,軟件工程的角色分工出現深刻重構,人類開發者可以不用將大量精力耗費在具體實現和重復性細節上,更多地轉向「明確需求、設計系統」等決策工作。AI 更多地承擔流程固定、規則明確的工程落地任務。

      在這樣的范式變革下,原來重工程、重經驗的 Agentic RL 有望隨著開發門檻的系統性降低,走向更廣泛的開發者群體。

      結語

      如果說過去一兩年,行業主要精力放在了教 Agent「怎么做事」上,即通過更好的工具調用、更復雜的工作流編排和更精細的 prompt 工程,讓 Agent 一步步跑通任務。那么下一階段,「如何讓 Agent 自我進化」成為重中之重。

      正因為如此,以 RL 為代表的系統化訓練從過去的加分項,逐漸成為決定 Agent 能力上限的關鍵變量。

      在這個重要的轉折點,AReaL v1.0 為行業貢獻了一個兼具易用性、可靠性和強擴展性的開源 Agentic RL 范本:應用層保持開放和兼容,輕松接入不同 Agent 框架;引擎層深度優化,極致壓榨訓練效率和資源利用率。

      未來,AReaL 團隊將繼續在系統組件可用性、Archon 引擎生產效率、AI 輔助開發能力和 VLM/Omni 模型 Agent 訓練等四個方向發力,最終打造成為 Agentic AI 時代的高性能 RL 運行時底座。

      當訓練框架變得足夠簡單,當 Agent 的接入方式足夠統一,當 AI 能夠深度輔助底層系統的開發工作,Agentic RL 的大規模落地必將跨越少數頂尖團隊的門檻,成為更加普及的大眾開發者利器。這正是「技術民主化」的核心要旨。

      隨著這類高性能底座的日益成熟,Agent 有望加速跨越跑通 Demo 的初級階段,真正開啟持續、自主、規模化進化的新階段。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      皇馬未來新帥是他?法布雷加斯或入主伯納烏,巴薩名宿要變身?

      皇馬未來新帥是他?法布雷加斯或入主伯納烏,巴薩名宿要變身?

      仰臥撐FTUer
      2026-03-10 11:16:15
      大S4閨蜜現狀:Makiyo住霉房,范瑋琪素顏憂郁,阿雅過氣

      大S4閨蜜現狀:Makiyo住霉房,范瑋琪素顏憂郁,阿雅過氣

      夢仙境
      2026-03-10 14:35:24
      沒入住就不用交物業費?廣西這起糾紛給出了明確法律答案

      沒入住就不用交物業費?廣西這起糾紛給出了明確法律答案

      智慧生活筆記
      2026-03-10 13:24:45
      譚松韻本人跟銀幕上差距很大,個子好矮小小一只,真人并不年輕

      譚松韻本人跟銀幕上差距很大,個子好矮小小一只,真人并不年輕

      手工制作阿殲
      2026-03-09 09:13:20
      美民主黨人警告:除非魯比奧等人就對伊行動作證,否則動用一切程序性手段阻撓參議院正常運作

      美民主黨人警告:除非魯比奧等人就對伊行動作證,否則動用一切程序性手段阻撓參議院正常運作

      環球網資訊
      2026-03-10 11:46:00
      12.5億元!蔚來11年首次季度盈利,換電站累計投入超180億,李斌賭對了?

      12.5億元!蔚來11年首次季度盈利,換電站累計投入超180億,李斌賭對了?

      時代周報
      2026-03-10 21:01:39
      賈淺淺《我的娘》才是最正宗“尿”詩,極具畫面感,您覺得如何?

      賈淺淺《我的娘》才是最正宗“尿”詩,極具畫面感,您覺得如何?

      讀睡
      2026-03-10 20:58:12
      特朗普改口,原油高點大跌30%, 美股直線拉升

      特朗普改口,原油高點大跌30%, 美股直線拉升

      每日經濟新聞
      2026-03-10 08:53:07
      OpenClaw,又失業一批中產階級

      OpenClaw,又失業一批中產階級

      動察Beating
      2026-03-05 11:55:52
      荸薺立大功?研究發現:荸薺可在24小時清除47%炎癥因子?

      荸薺立大功?研究發現:荸薺可在24小時清除47%炎癥因子?

      醫學科普匯
      2026-03-04 19:35:03
      華為的技術“王炸”,又要逼急友商了

      華為的技術“王炸”,又要逼急友商了

      每人Auto
      2026-03-10 12:04:09
      北京最后一家!東城這個知名品牌即將關門!

      北京最后一家!東城這個知名品牌即將關門!

      東西城早知道
      2026-03-10 14:37:51
      新血壓標準已公布,高血壓不再是120/80mmHg,愿你的血壓在它之下

      新血壓標準已公布,高血壓不再是120/80mmHg,愿你的血壓在它之下

      熊貓醫學社
      2026-02-06 11:35:03
      戰術航空旅指揮官在烏克蘭東部陣亡

      戰術航空旅指揮官在烏克蘭東部陣亡

      桂系007
      2026-03-09 23:49:42
      今年世錦賽誰奪冠?臺球皇帝看好3人,趙心童力壓火箭,沒有小特

      今年世錦賽誰奪冠?臺球皇帝看好3人,趙心童力壓火箭,沒有小特

      劉姚堯的文字城堡
      2026-03-10 13:30:45
      馬筱梅回應家庭矛盾,承諾讓汪小菲跟張蘭道歉,當時不阻止是對的

      馬筱梅回應家庭矛盾,承諾讓汪小菲跟張蘭道歉,當時不阻止是對的

      白面書誏
      2026-03-09 13:29:49
      意大利撕毀同中國簽訂的合約,本需賠償70億之巨,而今正為自己的違約行徑付出代價

      意大利撕毀同中國簽訂的合約,本需賠償70億之巨,而今正為自己的違約行徑付出代價

      老杉說歷史
      2026-01-13 19:04:11
      慣子如殺子!遼寧女孩早晨遛狗導致全家被害,父親重傷,母親被殺

      慣子如殺子!遼寧女孩早晨遛狗導致全家被害,父親重傷,母親被殺

      深度報
      2025-09-02 22:45:04
      伊朗錫斯坦俾路支斯坦省鬧獨立,一旦成功,對伊朗有什么影響?

      伊朗錫斯坦俾路支斯坦省鬧獨立,一旦成功,對伊朗有什么影響?

      世界縱橫說
      2026-03-05 21:11:30
      “化橘紅”火了,這個小果子怎么吃?有啥用?

      “化橘紅”火了,這個小果子怎么吃?有啥用?

      大象新聞
      2026-03-10 08:19:15
      2026-03-10 23:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12467文章數 142581關注度
      往期回顧 全部

      科技要聞

      全民"養蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      小伙輾轉8天回國:后悔賺錢賺到伊朗 赴死的心都有了

      頭條要聞

      小伙輾轉8天回國:后悔賺錢賺到伊朗 赴死的心都有了

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      《逐玉》注水風波升級!315評論區淪陷

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      游戲
      家居
      藝術
      親子
      房產

      羨慕嗎?國外圖書館都能借上3A大作了

      家居要聞

      自然肌理 溫度質感婚房

      藝術要聞

      30000畝杏花開了,新疆的春天這么美!

      親子要聞

      程曉玥自曝喜歡懷孕:我愛我的工作,然后我愛懷孕懷著孕工作

      房產要聞

      信號!千億巨頭入局,三亞開啟新一輪大征拆!

      無障礙瀏覽 進入關懷版