網易首頁 > 網易號 > 正文申請入駐

OpenClaw 能“邊用邊訓”了：智能體強化學習訓練框架 AReaL v1.0 穩定版發布

2026-03-06 12:42:57　來源: InfoQ

北京舉報

分享至

作者 | 冬梅

3 月 4 日，螞蟻集團聯合清華大學發布開源強化學習訓練框架 AReaL v1.0 穩定版。該版本主打“Agent 一鍵接入 RL 訓練”：不用改代碼，兼容各類 Agent 框架，讓智能體強化學習訓練開箱即用。

2026 年開年以來，Agent 持續升溫，以 LangChain、Claude Code、OpenClaw 為代表的智能體框架繁榮發展，但也暴露出兩大瓶頸。一是接入訓練成本高：現有智能體框架接口各異，每接入一個往往需要編寫整套適配代碼。二是 Agent 缺乏持續進化的能力：多數 Agent 的能力取決于底層模型在訓練階段習得的固定權重，部署后無法再針對特定場景持續優化，能力上限在交付時便已確定。

AReaL 是首個全異步訓推解耦的大模型強化學習訓練系統，能讓 Agent 在真實任務交互中獲得反饋、持續優化決策。此次發布的 v1.0 版本讓任意 Agent 零改造接入 RL 訓練成為現實——通過在智能體與訓練系統之間加入 Proxy Worker 中轉層，開發者只需修改一個請求地址即可接入訓練。

（圖說：AReaL 無縫接入智能體的異步訓練架構）

以當前大熱的 OpenClaw 為例，開發者只需在 OpenClaw 配置文件中將 base_url 和 api_key 指向 AReaL 網關，就能讓自己的 OpenClaw 接入強化學習訓練。智能體像往常一樣執行任務，用戶周期性給 Agent 完成任務的情況打分，AReaL 在后臺自動完成訓練數據的采集與模型的更新，在持續使用的過程中讓智能體自動進化。

AReaL v1.0 還推出了原生訓練引擎 Archon，它是基于 PyTorch 原生能力實現完整的 5D 并行（數據并行、流水線并行、張量并行、上下文并行、專家并行），降低了安裝與調試門檻，同時在訓練與推理側提供多種后端選擇，便于在不同環境中靈活部署。令人驚訝的是，這樣一個復雜的分布式系統，從零開始實現到驗證正確性，僅用了 1 人·月的工作量——32 天內，累計修改近百萬行代碼完整實現了 Archon 引擎，讓它能訓練千億參數 MoE 模型。

創造這一效率奇跡的秘訣在于 AReaL 集成的一整套 AI 輔助開發體系，實現了復雜工程開發的高度自動化。

AReaL v1.0 引入的 AI 輔助開發流程，為開發者提供了從規劃、編碼、校驗到 PR 創建的全鏈路支持。尤其是在處理 MoE 并行、內存優化、算法實現等核心模塊時，專屬的 AI 編程助手會像一位資深專家，在代碼變更時及時出現并提供針對性指導，為每一次代碼變更保駕護航，有效降低了開發和維護的門檻。AReaL 的 AI 輔助編程不只是提效工具，更能在復雜基礎設施工程中承擔“可交付”的研發工作，引領了下一代 AI 基礎設施工程范式的革新。

AReaL 團隊表示，將繼續圍繞訓練引擎、易用性和多模態智能體訓練等方向迭代。目前 AReaL v1.0 的代碼與文檔已在 inclusionAI 社區開源。

GitHub 倉庫：https://github.com/inclusionAI/AReaL

相關論文：https://arxiv.org/abs/2505.24298

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.