<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      補齊OpenClaw進化拼圖!AReaL v1.0開源,智能體強化學習一鍵接入

      0
      分享至



      機器之心編輯部

      2026 開年已兩個月,Agent 依然是全球最引人注目的 AI 賽道之一。OpenClaw(原 Clawbot)掀起的那波 Agent 熱潮至今仍在發酵,甚至讓「一人公司」概念第一次真正有了落地的可能性。

      就在近日,OpenClaw 超越了 React、Linux,成為 GitHub 上 Star 量最多的非資源/教程類開源軟件項目。



      從 Browser Agent 到 Coding Agent,從個人到企業級工作流 Agent,最直觀的感受是:Agent 能做的事越來越多了。

      與此同時,包括 LangChain、Claude Code、OpenClaw 等在內,各類運行時框架不斷拓寬智能體的能力邊界,使它們勝任更復雜的任務。雖然這些框架賦予了 Agent 更加廣闊的應用潛力,但如何讓它們在真實環境中持續提升并形成自我進化能力,仍缺乏成熟的體系支撐。

      尤其是被寄予厚望、用于支撐 Agent 在復雜、多輪、長程任務中進化的強化學習(RL)訓練,在工程落地上面臨多重阻力,限制了當前 Agent 的能力天花板。

      AReaL v1.0 的發布為行業帶來了積極的信號:一個開箱即用的 Agentic RL 訓練底座已經成形。

      由螞蟻和清華大學聯合打造的開源強化學習框架 AReaL,經過近一年的迭代打磨,迎來了里程碑式的穩定版本。作為一整套面向 Agent 的開源全異步強化學習訓練框架,此次最受矚目的進展在于讓「Agent 一鍵接入 RL 訓練」成為現實,重新定義了智能體強化學習的范式。



      • GitHub 倉庫:https://github.com/inclusionAI/AReaL
      • 論文:https://arxiv.org/abs/2505.24298

      在 Agentic RL 算法系統協同創新的加持下,AReaL v1.0 可以兼容任意 Agent 框架,僅需修改一個接口地址即可無縫接入 RL 訓練,包括最近火熱的 OpenClaw,極大降低了強化學習的訓練門檻。不僅如此,AReaL v1.0 還引入了系統化的 AI 輔助開發體系,并基于深度定制開發的 PyTorch 原生訓練引擎 Archon 實現了千億 MoE 模型的端到端訓練,引領了下一代 AI Infra 工程范式的革新。

      零代碼接入 OpenClaw 訓練

      傳統的 Agent 強化學習訓練,往往需要開發者深入理解底層訓練框架、修改 Agent 運行時代碼、甚至重構整個數據流水線。而 AReaL v1.0 徹底打破了這一壁壘 ——你的 Agent 框架不需要改動一行代碼。

      讓我們用一個實際例子來看看這有多簡單。

      完整案例:https://github.com/inclusionAI/AReaL/tree/main/examples/openclaw

      第一步:啟動 RL 訓練服務

      uv run python3 examples/openclaw/train.py --config examples/openclaw/config.yaml

      啟動后,你會看到類似這樣的輸出:

      (AReaL) Proxy gateway available at http://x.x.x.x:xx

      記下這個網關地址,它就是連接你的 Agent 與 RL 訓練的橋梁。

      第二步:配置你的 Agent

      我們以 ZeroClaw 為例,它是 OpenClaw 的一個變體。只需要修改一個配置文件,將 API 地址指向 AReaL 網關:

      # ~/.zeroclaw/config.tomldefault_provider = "localhost"api_key = "sk-sess-xxxxxxxxxxxx" # 從AReaL獲取

      [model_providers.localhost]base_url = "http://

      " # AReaL代理網關地址

      就這樣,配置完成。你的 ZeroClaw Agent 現在每一次 LLM 調用都會自動被記錄,用于強化學習訓練。

      第三步:正常使用你的 Agent

      啟動智能體,像往常一樣交互:

      zeroclaw channel start # 啟動Discord/Slack/CLI等任意交互渠道

      你可以讓 Agent 寫代碼、查資料、執行任務 ——一切照常。在后臺,AReaL 悄悄記錄著每一次對話輪次中用于強化學習訓練的數據。

      第四步:打分反饋,讓 Agent 進化

      當一個任務完成后,給 Agent 的表現打個分:

      python set_reward.py http://

      --api-key sk-sess-xxx --reward 1.0

      就這么簡單。AReaL 會自動將這次交互軌跡與獎勵信號打包,送入訓練流水線。

      當收集到足夠的交互軌跡后(由配置中的 batch_size 控制),系統會自動觸發一次訓練迭代,更新模型權重。更神奇的是:更新后的權重會無縫應用到后續的推理請求中。

      你的 Agent 仍在訓練過程中運行,不需要重啟,不需要重新加載模型 —— 它會在你不知不覺間變得更聰明

      架構破局:用「異步訓練」與「代理網關」打通 Agent 自我進化

      AReaL 是怎么做到讓 OpenClaw 自我進化的?這里涉及到兩個核心的架構設計:「全異步訓練」和「代理網關」。

      AReaL 的核心架構創新之一在于強化學習中的訓練、推理完全解耦。推理引擎流式生成軌跡,訓練引擎持續消費樣本,兩者在獨立 GPU 上同時運行。

      通過精心設計的 PPO 算法修正和陳舊度控制機制,AReaL 在保證訓練穩定性的同時,實現了 2 倍以上的吞吐提升

      這種設計在智能體訓練場景中有更大的優勢 —— 訓練引擎異步更新參數,不會阻塞智能體的推理,讓你的 OpenClaw 一邊學習一邊全力工作



      AReaL 的代理網關和全異步強化學習架構

      為了適配任何智能體框架,AReaL 選擇將「協議」作為統一標準,設計了一個代理網關(Proxy Gateway)。這個網關提供了 OpenAI/Anthropic API 協議的推理服務,會將所有輸入的請求重定向到本地的推理引擎上(如 SGLang、vLLM)進行推理計算,用起來就像一個普通的推理服務。

      但是,這個代理網關不止有路由的功能 —— 它會在進行推理的同時,捕獲每一次 LLM 交互中輸入輸出的 Token 級信息。在這條軌跡結束后,AReaL 會將后一步的獎勵值進行反向傳播,為每一輪的輸入輸出賦予獎勵值;最終,將它們導出為獨立的訓練樣本。這樣,早期的決策也能獲得合理的獎勵分配,讓模型學會「為長遠目標做出正確的早期選擇」。

      傳統方案中,推理時的文本需要在訓練時重新 tokenize,可能因 tokenizer 配置差異導致 token 序列不一致。AReaL 的獨立導出方案從根本上避免了這個問題:推理時產生的 token IDs 直接被緩存,訓練時原樣使用。發送給訓練引擎進行梯度計算的 tokens 就是推理引擎生成的 tokens,100% 一致。



      AReaL 中具體的多輪交互應用案例

      基于以上的架構設計,AReaL 能夠支持任意 Agent 框架的訓練 —— 無論是 OpenClaw 還是你自己搭建的 Agent,只需要將 API 地址指向 AReaL 的代理網關,就能自動接入強化學習訓練。

      開發者不用改動原有 Agent 代碼或業務邏輯,即可開啟 RL 訓練流程。這意味著,原本碎片化的 Agent 接口被收斂成了一層標準化的協議級 RL 入口,讓「任意 Agent 可訓」第一次在工程上真正可行

      然而,同一個 prompt 可能產生多條不同軌跡(如多次采樣),并且每條軌跡也會被 AReaL 打散成為多條獨立的輸入輸出。一個批次的數據之間往往存在大量共享前綴。傳統訓練方式對每條軌跡獨立計算,造成大量冗余計算。

      AReaL 為了解決這個問題,引入了基于 Trie(前綴樹)的序列打包方案:

      • 構建 Trie 結構:將共享前綴的序列壓縮到同一個樹結構中
      • 樹狀注意力計算:AReaL-DTA 方法實現了完整的樹狀注意力 forward-backward 方案,讓共享前綴僅計算一次

      樹狀注意力帶來了顯著的性能提升:單 Worker 訓練吞吐最高提升 8.31x,集群整體吞吐最高提升 6.20x,相比于基線方案減少超過 50% 的 GPU 顯存占用



      針對 Agentic RL 訓練的樹狀注意力實現圖示,詳細參考論文:https://arxiv.org/pdf/2602.00482

      用 AI 實現引擎重構:AI Infra 的工程范式革新

      除了降低 Agent RL 訓練的門檻,AReaL v1.0 的發布還帶來了訓練引擎的重磅更新

      在大規模 RL 訓練領域,Megatron-LM 是業界標桿。然而,它的依賴安裝需要 Docker 環境和繁瑣的 C++ 編譯,代碼層層嵌套,難以調試和擴展。團隊一直在思考:能否用 PyTorch 原生 API 實現同等能力的分布式訓練引擎

      答案是 AReaL 團隊基于 torchtitan 深度定制的訓練引擎 Archon ——一個支持完整 5D 并行(DP、TP、PP、CP、EP)的 PyTorch 原生訓練引擎

      • 數據并行 (DP):基于 FSDP2 fully_shard,相比 Megatron 默認的數據并行進一步拆分了模型參數
      • 流水線并行 (PP):基于 torch.distributed.pipelining,支持ZeroBublePipeline、 1F1B 、 Interleaved1F1B 等調度方式
      • 張量并行 (TP):基于 DTensor,使用 ColwiseParallel / RowwiseParallel 切分權重
      • 上下文并行 (CP):基于 Ulysses Sequence Parallelism,通過 all-to-all 分布式處理長序列
      • 專家并行 (EP):基于 all-to-all + grouped_mm,支持 EP + ETP 2D 分片

      令人驚訝的是,這樣一個復雜的分布式系統,從零開始實現到驗證正確性,僅用了 1 人?月的工作量——32 天內通過累計 72 萬行代碼修改完整實現了 Archon 引擎,并驗證了它能訓練千億參數 MoE 模型。

      創造這一效率奇跡的秘訣在于 AreaL 集成的一整套 AI 輔助開發體系,實現了復雜工程開發的高度自動化。



      基于 AI 編程的 archon 引擎代碼修改統計,來源 https://zhuanlan.zhihu.com/p/2003269671630165191

      這些駕馭 AI coding 的「武功秘籍」完全開源,讓每位開發者都能借助「專業團隊」,在 AReaL 中加速自己的 Agent RL 應用開發:

      一是為 AReaL 各核心模塊配置領域專家 Agents,讓它們具備模塊級架構認知,并在代碼修改時提供上下文相關的精準指導。

      二是引入以命令驅動的引導式工作流,通過一系列預設的一句話指令將常見開發任務流程化、標準化,讓開發范式從「手寫實現」轉向「聲明需求」,由 AI 自動完成軟件工程中最常見、最耗時的運維任務。

      三是在真實開發場景中,AReaL 提供的特定 Agent 全程自動化完成任務規劃、代碼生成、自動校驗到 PR 創建。



      AReaL AI Coding Sub-Agents(圖片由 AI 輔助生成)

      這套 AI 輔助開發體系在加速 Archon 引擎落地之外,也釋放出一個清晰的信號:AI 輔助編程不僅僅是效率工具,同樣具備了深度參與復雜系統開發的真實生產力。這一「用 AI 造訓 AI 工具」的工程實踐,重新定義了效率邊界。

      相應地,軟件工程的角色分工出現深刻重構,人類開發者可以不用將大量精力耗費在具體實現和重復性細節上,更多地轉向「明確需求、設計系統」等決策工作。AI 更多地承擔流程固定、規則明確的工程落地任務。

      在這樣的范式變革下,原來重工程、重經驗的 Agentic RL 有望隨著開發門檻的系統性降低,走向更廣泛的開發者群體。

      結語

      如果說過去一兩年,行業主要精力放在了教 Agent「怎么做事」上,即通過更好的工具調用、更復雜的工作流編排和更精細的 prompt 工程,讓 Agent 一步步跑通任務。那么下一階段,「如何讓 Agent 自我進化」成為重中之重。

      正因為如此,以 RL 為代表的系統化訓練從過去的加分項,逐漸成為決定 Agent 能力上限的關鍵變量。

      在這個重要的轉折點,AReaL v1.0 為行業貢獻了一個兼具易用性、可靠性和強擴展性的開源 Agentic RL 范本:應用層保持開放和兼容,輕松接入不同 Agent 框架;引擎層深度優化,極致壓榨訓練效率和資源利用率。

      未來,AReaL 團隊將繼續在系統組件可用性、Archon 引擎生產效率、AI 輔助開發能力和 VLM/Omni 模型 Agent 訓練等四個方向發力,最終打造成為 Agentic AI 時代的高性能 RL 運行時底座。

      當訓練框架變得足夠簡單,當 Agent 的接入方式足夠統一,當 AI 能夠深度輔助底層系統的開發工作,Agentic RL 的大規模落地必將跨越少數頂尖團隊的門檻,成為更加普及的大眾開發者利器。這正是「技術民主化」的核心要旨。

      隨著這類高性能底座的日益成熟,Agent 有望加速跨越跑通 Demo 的初級階段,真正開啟持續、自主、規模化進化的新階段。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      安徽大學有學生研究哈梅內伊思想

      安徽大學有學生研究哈梅內伊思想

      深度報
      2026-03-05 22:44:32
      多家車企大降價,我聽到一片歡呼

      多家車企大降價,我聽到一片歡呼

      新行情
      2026-03-05 15:00:34
      年前搶著干,年后懶得干!網約車低價單成為“燙手山芋”,掛半天沒人接!

      年前搶著干,年后懶得干!網約車低價單成為“燙手山芋”,掛半天沒人接!

      侃故事的阿慶
      2026-03-06 01:08:05
      “哈梅內伊二世”要接槍了,有些東西是永遠“清除”不了的

      “哈梅內伊二世”要接槍了,有些東西是永遠“清除”不了的

      人格志
      2026-03-05 00:06:29
      九十年代南大合影火了,一眼認出華春瑩,學霸氣質藏不住

      九十年代南大合影火了,一眼認出華春瑩,學霸氣質藏不住

      金鱗化龍2
      2026-03-04 10:02:36
      彩票出現斷崖式暴跌,“花2元中500萬”沒人信了?原因引人深思

      彩票出現斷崖式暴跌,“花2元中500萬”沒人信了?原因引人深思

      平說財經
      2026-02-12 16:27:02
      伊朗生死關頭,一個關鍵人物走向前臺……

      伊朗生死關頭,一個關鍵人物走向前臺……

      補壹刀
      2026-03-02 16:08:19
      600號邊上,上海這家名字特別的研究所火了!招聘要求博士,還給編制!網友好奇:上班即修仙?

      600號邊上,上海這家名字特別的研究所火了!招聘要求博士,還給編制!網友好奇:上班即修仙?

      極目新聞
      2026-03-05 17:12:31
      為啥有些人超害怕安檢?網友:沒有好心態不要干安檢

      為啥有些人超害怕安檢?網友:沒有好心態不要干安檢

      帶你感受人間冷暖
      2026-03-06 00:31:11
      一場戰爭把中國打醒!美軍最毒的不是裝備,中國用30年才真正看清

      一場戰爭把中國打醒!美軍最毒的不是裝備,中國用30年才真正看清

      達文西看世界
      2026-03-02 14:25:12
      你有知道哪些炸裂的秘密?網友:我有個秘密說出來肯定大家要笑死

      你有知道哪些炸裂的秘密?網友:我有個秘密說出來肯定大家要笑死

      帶你感受人間冷暖
      2026-01-29 00:10:05
      正式崛起了!本賽季的黃蜂,到底有多猛?

      正式崛起了!本賽季的黃蜂,到底有多猛?

      籃球實錄
      2026-03-05 18:18:45
      美軍發布摧毀中國造防空導彈畫面,它曾擊落過大名鼎鼎的U2偵察機

      美軍發布摧毀中國造防空導彈畫面,它曾擊落過大名鼎鼎的U2偵察機

      愛吃醋的貓咪
      2026-03-05 21:05:02
      中央終于對這4類干部動手了,將終身追責!釋放強烈信號

      中央終于對這4類干部動手了,將終身追責!釋放強烈信號

      細說職場
      2026-03-04 17:48:02
      “大哥”說打就打,95%依賴中東石油的日本經濟或遭受重創,高市早苗呼吁“談判”

      “大哥”說打就打,95%依賴中東石油的日本經濟或遭受重創,高市早苗呼吁“談判”

      紅星新聞
      2026-03-05 13:57:08
      曝伊朗已悄悄聯系美國,希望進行談判以結束戰爭,特朗普:太晚了

      曝伊朗已悄悄聯系美國,希望進行談判以結束戰爭,特朗普:太晚了

      爆角追蹤
      2026-03-04 21:23:12
      浙江17歲男生發現新物種“筷子蛇”!日行百公里,“刷山”40多夜:人生第一篇SCI

      浙江17歲男生發現新物種“筷子蛇”!日行百公里,“刷山”40多夜:人生第一篇SCI

      極目新聞
      2026-03-05 15:27:13
      一夫一妻制逐漸難維持!社會學家分析:未來3種模式將成為主流?

      一夫一妻制逐漸難維持!社會學家分析:未來3種模式將成為主流?

      流云青史
      2025-11-24 19:15:05
      68歲劉佩琦參加家庭聚會,圈外妻子露面好顯年輕,看著比他小20歲

      68歲劉佩琦參加家庭聚會,圈外妻子露面好顯年輕,看著比他小20歲

      柒佰娛
      2026-03-05 09:29:16
      伊朗或將試出中美太空競賽的底牌!

      伊朗或將試出中美太空競賽的底牌!

      民察秋毫
      2026-03-05 17:08:37
      2026-03-06 02:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12418文章數 142578關注度
      往期回顧 全部

      科技要聞

      獨家|林俊旸辭職 我們和認識他的人聊了聊

      頭條要聞

      伊朗:已作好準備應對美國地面行動

      頭條要聞

      伊朗:已作好準備應對美國地面行動

      體育要聞

      不開玩笑,沒人想在季后賽碰上黃蜂

      娛樂要聞

      謝娜下場撕薛之謙,張杰前女友爆猛料

      財經要聞

      “十五五”開局之年,這么干!

      汽車要聞

      15.98萬元起 第三代領克03大尾翼版上市

      態度原創

      時尚
      家居
      親子
      數碼
      游戲

      顯白的奶茶色,穿出春日味道

      家居要聞

      奶白柔境 閑臥享時光

      親子要聞

      10歲女童堅持十年,成功避開高度近視!醫生提醒關鍵在兩點

      數碼要聞

      安克首款智能盾磁吸充電寶預售:支持屏顯、邊充邊監測,349元

      今天是《生化危機5》發售17周年

      無障礙瀏覽 進入關懷版