![]()
機(jī)器之心發(fā)布
核心速覽:
- 首個(gè)統(tǒng)一系統(tǒng):將物理機(jī)器人提升為與 GPU 同等的計(jì)算資源,打破硬件隔閡。
- ??極致效率:全異步架構(gòu)將真實(shí)世界訓(xùn)練吞吐量提升5.7 倍
- 異構(gòu)協(xié)同:讓不同品牌、不同構(gòu)型的機(jī)器人(如 Franka + ARX)在同一模型下協(xié)同進(jìn)化。
- 大模型支持:原生支持 VLA(如 PI0)的云邊端在線微調(diào)。
![]()
- Code: https://github.com/RLinf/RLinf
- 論文鏈接:https://arxiv.org/abs/2602.07837
01. 背景:當(dāng) AI 撞上物理世界的墻
在具身智能的浪潮中,我們已經(jīng)見證了仿真訓(xùn)練的巨大成功。然而,當(dāng)我們?cè)噲D將智能帶入真實(shí)世界時(shí),卻撞上了一堵看不見的墻:
- 時(shí)間無法加速:物理世界沒有 100 倍速的快進(jìn)鍵,數(shù)據(jù)采集極其昂貴。
- 系統(tǒng)支離破碎:訓(xùn)練在云端,控制在邊緣,中間隔著不穩(wěn)定的網(wǎng)絡(luò);機(jī)器人被視為難以管理的 “外設(shè)”,而非計(jì)算資源。
- 數(shù)據(jù)稍縱即逝:一旦發(fā)生故障或網(wǎng)絡(luò)中斷,昂貴的長(zhǎng)序列數(shù)據(jù)往往付諸東流。
真實(shí)世界的策略學(xué)習(xí)(Real-World Policy Learning),不僅是算法的挑戰(zhàn),更是系統(tǒng)的挑戰(zhàn)。
今天,我們正式介紹RLinf-USER—— 一個(gè)專為真實(shí)世界在線策略學(xué)習(xí)打造的統(tǒng)一且可擴(kuò)展的系統(tǒng)。它不只是一個(gè)訓(xùn)練框架,更是連接數(shù)字大腦與物理軀體的 “神經(jīng)系統(tǒng)”,是實(shí)現(xiàn)千臺(tái)機(jī)器人物理世界策略進(jìn)化的關(guān)鍵一環(huán)。
02. RLinf-USER 是什么?
RLinf-USER (Unified and ExtensibleSystEm forReal-World Online Policy Learning) 是基于 RLinf 基礎(chǔ)設(shè)施構(gòu)建的專用系統(tǒng)。它的核心理念只有一個(gè):將物理世界的復(fù)雜性,封裝為簡(jiǎn)潔的計(jì)算流。
![]()
圖 1 RLinf-USER 是基于 RLinf 構(gòu)建的真機(jī)強(qiáng)化學(xué)習(xí)專用系統(tǒng)
系統(tǒng)設(shè)計(jì):
設(shè)計(jì) 1. 機(jī)器人即計(jì)算 (Robot as Compute)
RLinf 首次提出 “像使用 GPU 一樣使用機(jī)器人” 的概念。在 RLinf-USER 中,機(jī)器人不再是游離于集群之外的 “設(shè)備”。通過統(tǒng)一硬件抽象層 (HAL),物理機(jī)器人被虛擬化為與 GPU/TPU 同等的可調(diào)度資源。
- 自動(dòng)發(fā)現(xiàn):像插上顯卡一樣,系統(tǒng)自動(dòng)識(shí)別接入的機(jī)器人。
- 統(tǒng)一調(diào)度:無論是 7 自由度的機(jī)械臂,還是 4090 顯卡,都在同一個(gè)資源池中被統(tǒng)一編排。
設(shè)計(jì) 2. 云邊端無縫協(xié)同 (Adaptive Cloud-Edge Link)
大模型在云端,機(jī)器人在邊緣。RLinf-USER 構(gòu)建了一個(gè)自適應(yīng)通信平面:
- 隧道穿透:無論機(jī)器人身處防火墻后還是復(fù)雜內(nèi)網(wǎng)中,隧道技術(shù)都能建立直達(dá)云端的專線。
- 流量本地化:智能的分布式數(shù)據(jù)通道,只傳輸必要的訓(xùn)練樣本,將海量原始觀測(cè)數(shù)據(jù)截流在邊緣,無懼帶寬瓶頸。
![]()
圖 2 RLinf-USER 系統(tǒng)設(shè)計(jì)總覽:統(tǒng)一硬件抽象層與自適應(yīng)通信平面
學(xué)習(xí)框架設(shè)計(jì):
![]()
圖 3 RLinf-USER 學(xué)習(xí)框架設(shè)計(jì)總覽
?? 設(shè)計(jì) 3. 全異步進(jìn)化引擎 (Fully Asynchronous Pipeline)
真實(shí)世界不能等待。傳統(tǒng)的 “采集 - 訓(xùn)練” 同步循環(huán)會(huì)讓機(jī)器人把大量時(shí)間浪費(fèi)在等待計(jì)算上。
RLinf-USER 采用了全異步流水線設(shè)計(jì)
- 永不停歇:機(jī)器人在持續(xù)工作,GPU 在持續(xù)計(jì)算,網(wǎng)絡(luò)在持續(xù)更新。三個(gè)進(jìn)程完全解耦,互不等待。
- 極致吞吐:在 VLA 模型訓(xùn)練中,這種設(shè)計(jì)將整體吞吐量提升了5.70 倍!這意味著在同樣的物理時(shí)間內(nèi),你的機(jī)器人能多學(xué) 5 倍的經(jīng)驗(yàn)。
![]()
圖 4 全異步流水線
設(shè)計(jì) 4. 數(shù)據(jù)的 “時(shí)光機(jī)” (Persistent-Cache-Aware Buffer)
我們?cè)O(shè)計(jì)了持久化緩存感知緩沖區(qū):
- 無限記憶:打破內(nèi)存限制,支持 TB 級(jí)甚至 PB 級(jí)的歷史軌跡存儲(chǔ)。
- 崩潰恢復(fù):即使實(shí)驗(yàn)意外中斷,數(shù)據(jù)和狀態(tài)也能毫發(fā)無損,支持長(zhǎng)達(dá)數(shù)周的連續(xù)訓(xùn)練。
![]()
圖 5 持久化緩存感知 buffer
設(shè)計(jì) 5. 豐富的在線學(xué)習(xí)組件支持
USER 在統(tǒng)一的接口下,支持了多樣的學(xué)習(xí)組件,模塊化的設(shè)計(jì)易于二次開發(fā):
- 模型支持:CNN model,F(xiàn)low matching model,VLA(如 PI0)
- 算法支持:強(qiáng)化學(xué)習(xí)(如 SAC、SAC Flow)、模仿學(xué)習(xí)(如 HG-DAgger)
- 獎(jiǎng)勵(lì)函數(shù)支持:規(guī)則獎(jiǎng)勵(lì)、人工獎(jiǎng)勵(lì)、獎(jiǎng)勵(lì)模型
03. 硬核實(shí)戰(zhàn):它能做到什么?
RLinf-USER 在 5 個(gè)真實(shí)任務(wù)中證明了效率和性能。
![]()
圖 6 在 5 個(gè)真實(shí)世界任務(wù)上驗(yàn)證 USER,對(duì)應(yīng)不同的 reward、算法、策略
戰(zhàn)績(jī)一:VLA 大模型的在線進(jìn)化
這是目前少有的支持3B 參數(shù) VLA 模型(PI0)在真實(shí)世界進(jìn)行在線微調(diào)的系統(tǒng)。
- 任務(wù):桌面清理(Table Clean-up)—— 一個(gè)包含分類、抓取、放置、關(guān)蓋的長(zhǎng)序列任務(wù)。
- 結(jié)果:通過 HG-DAgger 算法,模型成功率從45%飆升至80%。隨著訓(xùn)練進(jìn)行,人工干預(yù)次數(shù)顯著下降,機(jī)器人逐漸學(xué)會(huì)了獨(dú)立思考。
![]()
![]()
圖 7 USER 框架使用 HG-DAgger 算法微調(diào) PI0 模型。人工干預(yù)次數(shù)顯著下降,成功率從 45%->80%
戰(zhàn)績(jī)二:異構(gòu)機(jī)器人 “大一統(tǒng)”
RLinf-USER 完成了一項(xiàng)極具挑戰(zhàn)的實(shí)驗(yàn):讓兩種完全不同的機(jī)器人一起學(xué)習(xí)。
- 組合:高端的7-DoF Franka機(jī)械臂 + 低成本的6-DoF ARX機(jī)械臂。
- 效果:盡管它們的構(gòu)型、關(guān)節(jié)數(shù)、攝像頭參數(shù)截然不同,但在 USER 的統(tǒng)一抽象下,它們共同為一個(gè)策略貢獻(xiàn)數(shù)據(jù)。最終,同一個(gè)模型學(xué)會(huì)了控制這兩種截然不同的 “身體”。
![]()
![]()
圖 8 使用 USER 進(jìn)行異構(gòu)訓(xùn)練
?? 戰(zhàn)績(jī)?nèi)嚎缭角Ю锏?“云 - 邊” 協(xié)同
針對(duì)大模型訓(xùn)練算力在云端、機(jī)器人執(zhí)行在邊緣端的典型場(chǎng)景,RLinf-USER 克服了物理距離和網(wǎng)絡(luò)隔離的障礙。
- 挑戰(zhàn):訓(xùn)練節(jié)點(diǎn)位于北京(云端),而機(jī)器人和推理節(jié)點(diǎn)位于數(shù)千公里外的深圳(邊緣端),中間隔著高延遲、帶寬受限且復(fù)雜的公網(wǎng)環(huán)境。
- 效果:得益于 USER 的隧道網(wǎng)絡(luò)技術(shù)(Tunneling-based Networking)和分布式數(shù)據(jù)通道,跨域通信的效率大幅提升。實(shí)驗(yàn)數(shù)據(jù)顯示,在跨域部署下,單集(Episode)數(shù)據(jù)的生成時(shí)間縮短了約3 倍(從~69 秒 降至~22 秒),實(shí)現(xiàn)了如同在局域網(wǎng)般流暢的遠(yuǎn)程分布式訓(xùn)練。
![]()
圖 9 USER 自適應(yīng)通信平面顯著降低了跨域部署的通信延遲
?? 戰(zhàn)績(jī)四:異步 vs 同步架構(gòu)速度的碾壓
在經(jīng)典的插孔(Peg Insertion)任務(wù)中:
- 傳統(tǒng)同步架構(gòu):收斂需要 8000+ 秒。
- RLinf-USER:收斂?jī)H需約 1500 秒。
效率提升超過 5 倍,讓原本漫長(zhǎng)的訓(xùn)練過程變得立等可取。
![]()
圖 10 USER 的全異步工作流顯著提升了物理世界中算法的收斂速度
戰(zhàn)績(jī)五:打破 “內(nèi)存墻”,數(shù)據(jù)的無限記憶與極速吞吐
在真實(shí)世界長(zhǎng)周期(Long-horizon)的訓(xùn)練中,數(shù)據(jù)是極其寶貴的資產(chǎn)。針對(duì)傳統(tǒng) Buffer “存不下” 或 “讀得慢” 的痛點(diǎn),RLinf-USER 拒絕妥協(xié)。
- 機(jī)制:RLinf-USER 獨(dú)創(chuàng)了持久化緩存感知 Buffer (Persistent-Cache-Aware Buffer),通過智能索引機(jī)制,將海量歷史數(shù)據(jù)異步落盤,同時(shí)在內(nèi)存中保留高頻熱點(diǎn)數(shù)據(jù)(Cache)。
- 效果:這是一個(gè) “魚和熊掌兼得” 的方案。實(shí)驗(yàn)評(píng)測(cè)顯示,RLinf-USER 在提供磁盤級(jí) “無限” 容量(支持 TB 級(jí)歷史數(shù)據(jù)回溯)的同時(shí),實(shí)現(xiàn)了顯著優(yōu)于純磁盤存儲(chǔ)的采樣吞吐量。同樣關(guān)鍵的是,它自帶崩潰恢復(fù)能力,即使實(shí)驗(yàn)因故障意外中斷,長(zhǎng)期積累的寶貴數(shù)據(jù)也能毫發(fā)無損,隨時(shí)重啟 “再戰(zhàn)”。
![]()
圖 11 RLinf-USER 的 Buffer 在不同配置下的吞吐量性能測(cè)試,平衡了容量與效率
04. 為什么選擇 RLinf-USER?
如果說 ChatGPT 是 AI 在數(shù)字世界的里程碑,那么 RLinf-USER 致力于成為具身智能在物理世界的基石。
如果你是研究者:它兼容 CNN、Flow-based policy、VLA 等多種策略,支持 RL、IL、Human-in-the-loop 等各種算法。它將模型、算法等模塊解耦,簡(jiǎn)化開發(fā)難度。
如果你是工程師:它提供了工業(yè)級(jí)的穩(wěn)定性(崩潰恢復(fù))和擴(kuò)展性(自動(dòng)硬件發(fā)現(xiàn)),讓大規(guī)模機(jī)器人集群管理變得像管理服務(wù)器一樣簡(jiǎn)單。
此時(shí)此刻,機(jī)器人不再只是外設(shè)。RLinf-USER,讓智能真正 “具身”。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/4iPmPYghEzbWZeyO9jlD5w
RLinf 發(fā)布半年,Github Star 2.5k+,得到了學(xué)術(shù)界和工業(yè)界的廣泛認(rèn)可,達(dá)成了多項(xiàng)戰(zhàn)略合作,包括英偉達(dá) IssacLab、原力靈機(jī) Dexbotic 等,更多家合作官宣也會(huì)盡快和大家見面。道阻且長(zhǎng),26 年 RLinf 仍在為搭建更好的具身智能基礎(chǔ)設(shè)施而努力,并持續(xù)做好可復(fù)現(xiàn)生態(tài)。團(tuán)隊(duì)也開放招生和招聘,歡迎大家聯(lián)系于超老師(郵件:zoeyuchao@gmail.com)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.