![]()
作者 | 冬梅
3 月 4 日,螞蟻集團聯合清華大學發布開源強化學習訓練框架 AReaL v1.0 穩定版。該版本主打“Agent 一鍵接入 RL 訓練”:不用改代碼,兼容各類 Agent 框架,讓智能體強化學習訓練開箱即用。
2026 年開年以來,Agent 持續升溫,以 LangChain、Claude Code、OpenClaw 為代表的智能體框架繁榮發展,但也暴露出兩大瓶頸。一是接入訓練成本高:現有智能體框架接口各異,每接入一個往往需要編寫整套適配代碼。二是 Agent 缺乏持續進化的能力:多數 Agent 的能力取決于底層模型在訓練階段習得的固定權重,部署后無法再針對特定場景持續優化,能力上限在交付時便已確定。
AReaL 是首個全異步訓推解耦的大模型強化學習訓練系統,能讓 Agent 在真實任務交互中獲得反饋、持續優化決策。此次發布的 v1.0 版本讓任意 Agent 零改造接入 RL 訓練成為現實——通過在智能體與訓練系統之間加入 Proxy Worker 中轉層,開發者只需修改一個請求地址即可接入訓練。
![]()
(圖說:AReaL 無縫接入智能體的異步訓練架構)
以當前大熱的 OpenClaw 為例,開發者只需在 OpenClaw 配置文件中將 base_url 和 api_key 指向 AReaL 網關,就能讓自己的 OpenClaw 接入強化學習訓練。智能體像往常一樣執行任務,用戶周期性給 Agent 完成任務的情況打分,AReaL 在后臺自動完成訓練數據的采集與模型的更新,在持續使用的過程中讓智能體自動進化。
AReaL v1.0 還推出了原生訓練引擎 Archon,它是基于 PyTorch 原生能力實現完整的 5D 并行(數據并行、流水線并行、張量并行、上下文并行、專家并行),降低了安裝與調試門檻,同時在訓練與推理側提供多種后端選擇,便于在不同環境中靈活部署。令人驚訝的是,這樣一個復雜的分布式系統,從零開始實現到驗證正確性,僅用了 1 人·月的工作量——32 天內,累計修改近百萬行代碼完整實現了 Archon 引擎,讓它能訓練千億參數 MoE 模型。
創造這一效率奇跡的秘訣在于 AReaL 集成的一整套 AI 輔助開發體系,實現了復雜工程開發的高度自動化。
![]()
AReaL v1.0 引入的 AI 輔助開發流程,為開發者提供了從規劃、編碼、校驗到 PR 創建的全鏈路支持。尤其是在處理 MoE 并行、內存優化、算法實現等核心模塊時,專屬的 AI 編程助手會像一位資深專家,在代碼變更時及時出現并提供針對性指導,為每一次代碼變更保駕護航,有效降低了開發和維護的門檻。AReaL 的 AI 輔助編程不只是提效工具,更能在復雜基礎設施工程中承擔“可交付”的研發工作,引領了下一代 AI 基礎設施工程范式的革新。
AReaL 團隊表示,將繼續圍繞訓練引擎、易用性和多模態智能體訓練等方向迭代。目前 AReaL v1.0 的代碼與文檔已在 inclusionAI 社區開源。
GitHub 倉庫:https://github.com/inclusionAI/AReaL
相關論文:https://arxiv.org/abs/2505.24298
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.