網易首頁 > 網易號 > 正文申請入駐

補齊OpenClaw進化拼圖！AReaL v1.0開源，智能體強化學習一鍵接入

2026-03-04 12:09:39　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

2026 開年已兩個月，Agent 依然是全球最引人注目的 AI 賽道之一。OpenClaw（原 Clawbot）掀起的那波 Agent 熱潮至今仍在發酵，甚至讓「一人公司」概念第一次真正有了落地的可能性。

就在近日，OpenClaw 超越了 React、Linux，成為 GitHub 上 Star 量最多的非資源/教程類開源軟件項目。

從 Browser Agent 到 Coding Agent，從個人到企業級工作流 Agent，最直觀的感受是：Agent 能做的事越來越多了。

與此同時，包括 LangChain、Claude Code、OpenClaw 等在內，各類運行時框架不斷拓寬智能體的能力邊界，使它們勝任更復雜的任務。雖然這些框架賦予了 Agent 更加廣闊的應用潛力，但如何讓它們在真實環境中持續提升并形成自我進化能力，仍缺乏成熟的體系支撐。

尤其是被寄予厚望、用于支撐 Agent 在復雜、多輪、長程任務中進化的強化學習（RL）訓練，在工程落地上面臨多重阻力，限制了當前 Agent 的能力天花板。

AReaL v1.0 的發布為行業帶來了積極的信號：一個開箱即用的 Agentic RL 訓練底座已經成形。

由螞蟻和清華大學聯合打造的開源強化學習框架 AReaL，經過近一年的迭代打磨，迎來了里程碑式的穩定版本。作為一整套面向 Agent 的開源全異步強化學習訓練框架，此次最受矚目的進展在于讓「Agent 一鍵接入 RL 訓練」成為現實，重新定義了智能體強化學習的范式。

GitHub 倉庫：https://github.com/inclusionAI/AReaL
論文：https://arxiv.org/abs/2505.24298

在 Agentic RL 算法系統協同創新的加持下，AReaL v1.0 可以兼容任意 Agent 框架，僅需修改一個接口地址即可無縫接入 RL 訓練，包括最近火熱的 OpenClaw，極大降低了強化學習的訓練門檻。不僅如此，AReaL v1.0 還引入了系統化的 AI 輔助開發體系，并基于深度定制開發的 PyTorch 原生訓練引擎 Archon 實現了千億 MoE 模型的端到端訓練，引領了下一代 AI Infra 工程范式的革新。

零代碼接入 OpenClaw 訓練

傳統的 Agent 強化學習訓練，往往需要開發者深入理解底層訓練框架、修改 Agent 運行時代碼、甚至重構整個數據流水線。而 AReaL v1.0 徹底打破了這一壁壘 ——你的 Agent 框架不需要改動一行代碼。

讓我們用一個實際例子來看看這有多簡單。

完整案例：https://github.com/inclusionAI/AReaL/tree/main/examples/openclaw

第一步：啟動 RL 訓練服務

uv run python3 examples/openclaw/train.py --config examples/openclaw/config.yaml

啟動后，你會看到類似這樣的輸出：

(AReaL) Proxy gateway available at http://x.x.x.x:xx

記下這個網關地址，它就是連接你的 Agent 與 RL 訓練的橋梁。

第二步：配置你的 Agent

我們以 ZeroClaw 為例，它是 OpenClaw 的一個變體。只需要修改一個配置文件，將 API 地址指向 AReaL 網關：

# ~/.zeroclaw/config.tomldefault_provider = "localhost"api_key = "sk-sess-xxxxxxxxxxxx" # 從AReaL獲取

[model_providers.localhost]base_url = "http://

" # AReaL代理網關地址

就這樣，配置完成。你的 ZeroClaw Agent 現在每一次 LLM 調用都會自動被記錄，用于強化學習訓練。

第三步：正常使用你的 Agent

啟動智能體，像往常一樣交互：

zeroclaw channel start # 啟動Discord/Slack/CLI等任意交互渠道

你可以讓 Agent 寫代碼、查資料、執行任務 ——一切照常。在后臺，AReaL 悄悄記錄著每一次對話輪次中用于強化學習訓練的數據。

第四步：打分反饋，讓 Agent 進化

當一個任務完成后，給 Agent 的表現打個分：

python set_reward.py http://

--api-key sk-sess-xxx --reward 1.0

就這么簡單。AReaL 會自動將這次交互軌跡與獎勵信號打包，送入訓練流水線。

當收集到足夠的交互軌跡后（由配置中的 batch_size 控制），系統會自動觸發一次訓練迭代，更新模型權重。更神奇的是：更新后的權重會無縫應用到后續的推理請求中。

你的 Agent 仍在訓練過程中運行，不需要重啟，不需要重新加載模型 —— 它會在你不知不覺間變得更聰明

架構破局：用「異步訓練」與「代理網關」打通 Agent 自我進化

AReaL 是怎么做到讓 OpenClaw 自我進化的？這里涉及到兩個核心的架構設計：「全異步訓練」和「代理網關」。

AReaL 的核心架構創新之一在于強化學習中的訓練、推理完全解耦。推理引擎流式生成軌跡，訓練引擎持續消費樣本，兩者在獨立 GPU 上同時運行。

通過精心設計的 PPO 算法修正和陳舊度控制機制，AReaL 在保證訓練穩定性的同時，實現了 2 倍以上的吞吐提升

這種設計在智能體訓練場景中有更大的優勢 —— 訓練引擎異步更新參數，不會阻塞智能體的推理，讓你的 OpenClaw 一邊學習一邊全力工作

AReaL 的代理網關和全異步強化學習架構

為了適配任何智能體框架，AReaL 選擇將「協議」作為統一標準，設計了一個代理網關（Proxy Gateway）。這個網關提供了 OpenAI/Anthropic API 協議的推理服務，會將所有輸入的請求重定向到本地的推理引擎上（如 SGLang、vLLM）進行推理計算，用起來就像一個普通的推理服務。

但是，這個代理網關不止有路由的功能 —— 它會在進行推理的同時，捕獲每一次 LLM 交互中輸入輸出的 Token 級信息。在這條軌跡結束后，AReaL 會將后一步的獎勵值進行反向傳播，為每一輪的輸入輸出賦予獎勵值；最終，將它們導出為獨立的訓練樣本。這樣，早期的決策也能獲得合理的獎勵分配，讓模型學會「為長遠目標做出正確的早期選擇」。

傳統方案中，推理時的文本需要在訓練時重新 tokenize，可能因 tokenizer 配置差異導致 token 序列不一致。AReaL 的獨立導出方案從根本上避免了這個問題：推理時產生的 token IDs 直接被緩存，訓練時原樣使用。發送給訓練引擎進行梯度計算的 tokens 就是推理引擎生成的 tokens，100% 一致。

AReaL 中具體的多輪交互應用案例

基于以上的架構設計，AReaL 能夠支持任意 Agent 框架的訓練 —— 無論是 OpenClaw 還是你自己搭建的 Agent，只需要將 API 地址指向 AReaL 的代理網關，就能自動接入強化學習訓練。

開發者不用改動原有 Agent 代碼或業務邏輯，即可開啟 RL 訓練流程。這意味著，原本碎片化的 Agent 接口被收斂成了一層標準化的協議級 RL 入口，讓「任意 Agent 可訓」第一次在工程上真正可行

然而，同一個 prompt 可能產生多條不同軌跡（如多次采樣），并且每條軌跡也會被 AReaL 打散成為多條獨立的輸入輸出。一個批次的數據之間往往存在大量共享前綴。傳統訓練方式對每條軌跡獨立計算，造成大量冗余計算。

AReaL 為了解決這個問題，引入了基于 Trie（前綴樹）的序列打包方案：

構建 Trie 結構：將共享前綴的序列壓縮到同一個樹結構中
樹狀注意力計算：AReaL-DTA 方法實現了完整的樹狀注意力 forward-backward 方案，讓共享前綴僅計算一次

樹狀注意力帶來了顯著的性能提升：單 Worker 訓練吞吐最高提升 8.31x，集群整體吞吐最高提升 6.20x，相比于基線方案減少超過 50% 的 GPU 顯存占用

針對 Agentic RL 訓練的樹狀注意力實現圖示，詳細參考論文：https://arxiv.org/pdf/2602.00482

用 AI 實現引擎重構：AI Infra 的工程范式革新

除了降低 Agent RL 訓練的門檻，AReaL v1.0 的發布還帶來了訓練引擎的重磅更新

在大規模 RL 訓練領域，Megatron-LM 是業界標桿。然而，它的依賴安裝需要 Docker 環境和繁瑣的 C++ 編譯，代碼層層嵌套，難以調試和擴展。團隊一直在思考：能否用 PyTorch 原生 API 實現同等能力的分布式訓練引擎

答案是 AReaL 團隊基于 torchtitan 深度定制的訓練引擎 Archon ——一個支持完整 5D 并行（DP、TP、PP、CP、EP）的 PyTorch 原生訓練引擎

數據并行 (DP)：基于 FSDP2 fully_shard，相比 Megatron 默認的數據并行進一步拆分了模型參數
流水線并行 (PP)：基于 torch.distributed.pipelining，支持ZeroBublePipeline、 1F1B 、 Interleaved1F1B 等調度方式
張量并行 (TP)：基于 DTensor，使用 ColwiseParallel / RowwiseParallel 切分權重
上下文并行 (CP)：基于 Ulysses Sequence Parallelism，通過 all-to-all 分布式處理長序列
專家并行 (EP)：基于 all-to-all + grouped_mm，支持 EP + ETP 2D 分片

令人驚訝的是，這樣一個復雜的分布式系統，從零開始實現到驗證正確性，僅用了 1 人?月的工作量——32 天內通過累計 72 萬行代碼修改完整實現了 Archon 引擎，并驗證了它能訓練千億參數 MoE 模型。

創造這一效率奇跡的秘訣在于 AreaL 集成的一整套 AI 輔助開發體系，實現了復雜工程開發的高度自動化。

基于 AI 編程的 archon 引擎代碼修改統計，來源 https://zhuanlan.zhihu.com/p/2003269671630165191

這些駕馭 AI coding 的「武功秘籍」完全開源，讓每位開發者都能借助「專業團隊」，在 AReaL 中加速自己的 Agent RL 應用開發：

一是為 AReaL 各核心模塊配置領域專家 Agents，讓它們具備模塊級架構認知，并在代碼修改時提供上下文相關的精準指導。

二是引入以命令驅動的引導式工作流，通過一系列預設的一句話指令將常見開發任務流程化、標準化，讓開發范式從「手寫實現」轉向「聲明需求」，由 AI 自動完成軟件工程中最常見、最耗時的運維任務。

三是在真實開發場景中，AReaL 提供的特定 Agent 全程自動化完成任務規劃、代碼生成、自動校驗到 PR 創建。

AReaL AI Coding Sub-Agents（圖片由 AI 輔助生成）

這套 AI 輔助開發體系在加速 Archon 引擎落地之外，也釋放出一個清晰的信號：AI 輔助編程不僅僅是效率工具，同樣具備了深度參與復雜系統開發的真實生產力。這一「用 AI 造訓 AI 工具」的工程實踐，重新定義了效率邊界。

相應地，軟件工程的角色分工出現深刻重構，人類開發者可以不用將大量精力耗費在具體實現和重復性細節上，更多地轉向「明確需求、設計系統」等決策工作。AI 更多地承擔流程固定、規則明確的工程落地任務。

在這樣的范式變革下，原來重工程、重經驗的 Agentic RL 有望隨著開發門檻的系統性降低，走向更廣泛的開發者群體。

結語

如果說過去一兩年，行業主要精力放在了教 Agent「怎么做事」上，即通過更好的工具調用、更復雜的工作流編排和更精細的 prompt 工程，讓 Agent 一步步跑通任務。那么下一階段，「如何讓 Agent 自我進化」成為重中之重。

正因為如此，以 RL 為代表的系統化訓練從過去的加分項，逐漸成為決定 Agent 能力上限的關鍵變量。

在這個重要的轉折點，AReaL v1.0 為行業貢獻了一個兼具易用性、可靠性和強擴展性的開源 Agentic RL 范本：應用層保持開放和兼容，輕松接入不同 Agent 框架；引擎層深度優化，極致壓榨訓練效率和資源利用率。

未來，AReaL 團隊將繼續在系統組件可用性、Archon 引擎生產效率、AI 輔助開發能力和 VLM/Omni 模型 Agent 訓練等四個方向發力，最終打造成為 Agentic AI 時代的高性能 RL 運行時底座。

當訓練框架變得足夠簡單，當 Agent 的接入方式足夠統一，當 AI 能夠深度輔助底層系統的開發工作，Agentic RL 的大規模落地必將跨越少數頂尖團隊的門檻，成為更加普及的大眾開發者利器。這正是「技術民主化」的核心要旨。

隨著這類高性能底座的日益成熟，Agent 有望加速跨越跑通 Demo 的初級階段，真正開啟持續、自主、規模化進化的新階段。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.