網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

RLinf-USER發(fā)布！別再用仿真，真實(shí)世界訓(xùn)練也能極致效率與系統(tǒng)化

2026-02-11 11:35:03　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心發(fā)布

核心速覽：

首個(gè)統(tǒng)一系統(tǒng)：將物理機(jī)器人提升為與 GPU 同等的計(jì)算資源，打破硬件隔閡。
??極致效率：全異步架構(gòu)將真實(shí)世界訓(xùn)練吞吐量提升5.7 倍
異構(gòu)協(xié)同：讓不同品牌、不同構(gòu)型的機(jī)器人（如 Franka + ARX）在同一模型下協(xié)同進(jìn)化。
大模型支持：原生支持 VLA（如 PI0）的云邊端在線微調(diào)。

Code: https://github.com/RLinf/RLinf
論文鏈接：https://arxiv.org/abs/2602.07837

01. 背景：當(dāng) AI 撞上物理世界的墻

在具身智能的浪潮中，我們已經(jīng)見證了仿真訓(xùn)練的巨大成功。然而，當(dāng)我們?cè)噲D將智能帶入真實(shí)世界時(shí)，卻撞上了一堵看不見的墻：

時(shí)間無法加速：物理世界沒有 100 倍速的快進(jìn)鍵，數(shù)據(jù)采集極其昂貴。
系統(tǒng)支離破碎：訓(xùn)練在云端，控制在邊緣，中間隔著不穩(wěn)定的網(wǎng)絡(luò)；機(jī)器人被視為難以管理的 “外設(shè)”，而非計(jì)算資源。
數(shù)據(jù)稍縱即逝：一旦發(fā)生故障或網(wǎng)絡(luò)中斷，昂貴的長(zhǎng)序列數(shù)據(jù)往往付諸東流。

真實(shí)世界的策略學(xué)習(xí)（Real-World Policy Learning），不僅是算法的挑戰(zhàn)，更是系統(tǒng)的挑戰(zhàn)。

今天，我們正式介紹RLinf-USER—— 一個(gè)專為真實(shí)世界在線策略學(xué)習(xí)打造的統(tǒng)一且可擴(kuò)展的系統(tǒng)。它不只是一個(gè)訓(xùn)練框架，更是連接數(shù)字大腦與物理軀體的 “神經(jīng)系統(tǒng)”，是實(shí)現(xiàn)千臺(tái)機(jī)器人物理世界策略進(jìn)化的關(guān)鍵一環(huán)。

02. RLinf-USER 是什么？

RLinf-USER (Unified and ExtensibleSystEm forReal-World Online Policy Learning) 是基于 RLinf 基礎(chǔ)設(shè)施構(gòu)建的專用系統(tǒng)。它的核心理念只有一個(gè)：將物理世界的復(fù)雜性，封裝為簡(jiǎn)潔的計(jì)算流。

圖 1 RLinf-USER 是基于 RLinf 構(gòu)建的真機(jī)強(qiáng)化學(xué)習(xí)專用系統(tǒng)

系統(tǒng)設(shè)計(jì)：

設(shè)計(jì) 1. 機(jī)器人即計(jì)算 (Robot as Compute)

RLinf 首次提出 “像使用 GPU 一樣使用機(jī)器人” 的概念。在 RLinf-USER 中，機(jī)器人不再是游離于集群之外的 “設(shè)備”。通過統(tǒng)一硬件抽象層 (HAL)，物理機(jī)器人被虛擬化為與 GPU/TPU 同等的可調(diào)度資源。

自動(dòng)發(fā)現(xiàn)：像插上顯卡一樣，系統(tǒng)自動(dòng)識(shí)別接入的機(jī)器人。
統(tǒng)一調(diào)度：無論是 7 自由度的機(jī)械臂，還是 4090 顯卡，都在同一個(gè)資源池中被統(tǒng)一編排。

設(shè)計(jì) 2. 云邊端無縫協(xié)同 (Adaptive Cloud-Edge Link)

大模型在云端，機(jī)器人在邊緣。RLinf-USER 構(gòu)建了一個(gè)自適應(yīng)通信平面：

隧道穿透：無論機(jī)器人身處防火墻后還是復(fù)雜內(nèi)網(wǎng)中，隧道技術(shù)都能建立直達(dá)云端的專線。
流量本地化：智能的分布式數(shù)據(jù)通道，只傳輸必要的訓(xùn)練樣本，將海量原始觀測(cè)數(shù)據(jù)截流在邊緣，無懼帶寬瓶頸。

圖 2 RLinf-USER 系統(tǒng)設(shè)計(jì)總覽：統(tǒng)一硬件抽象層與自適應(yīng)通信平面

學(xué)習(xí)框架設(shè)計(jì)：

圖 3 RLinf-USER 學(xué)習(xí)框架設(shè)計(jì)總覽

?? 設(shè)計(jì) 3. 全異步進(jìn)化引擎 (Fully Asynchronous Pipeline)

真實(shí)世界不能等待。傳統(tǒng)的 “采集 - 訓(xùn)練” 同步循環(huán)會(huì)讓機(jī)器人把大量時(shí)間浪費(fèi)在等待計(jì)算上。

RLinf-USER 采用了全異步流水線設(shè)計(jì)

永不停歇：機(jī)器人在持續(xù)工作，GPU 在持續(xù)計(jì)算，網(wǎng)絡(luò)在持續(xù)更新。三個(gè)進(jìn)程完全解耦，互不等待。
極致吞吐：在 VLA 模型訓(xùn)練中，這種設(shè)計(jì)將整體吞吐量提升了5.70 倍！這意味著在同樣的物理時(shí)間內(nèi)，你的機(jī)器人能多學(xué) 5 倍的經(jīng)驗(yàn)。

圖 4 全異步流水線

設(shè)計(jì) 4. 數(shù)據(jù)的 “時(shí)光機(jī)” (Persistent-Cache-Aware Buffer)

我們?cè)O(shè)計(jì)了持久化緩存感知緩沖區(qū)：

無限記憶：打破內(nèi)存限制，支持 TB 級(jí)甚至 PB 級(jí)的歷史軌跡存儲(chǔ)。
崩潰恢復(fù)：即使實(shí)驗(yàn)意外中斷，數(shù)據(jù)和狀態(tài)也能毫發(fā)無損，支持長(zhǎng)達(dá)數(shù)周的連續(xù)訓(xùn)練。

圖 5 持久化緩存感知 buffer

設(shè)計(jì) 5. 豐富的在線學(xué)習(xí)組件支持

USER 在統(tǒng)一的接口下，支持了多樣的學(xué)習(xí)組件，模塊化的設(shè)計(jì)易于二次開發(fā)：

模型支持：CNN model，F(xiàn)low matching model，VLA（如 PI0）
算法支持：強(qiáng)化學(xué)習(xí)（如 SAC、SAC Flow）、模仿學(xué)習(xí)（如 HG-DAgger）
獎(jiǎng)勵(lì)函數(shù)支持：規(guī)則獎(jiǎng)勵(lì)、人工獎(jiǎng)勵(lì)、獎(jiǎng)勵(lì)模型

03. 硬核實(shí)戰(zhàn)：它能做到什么？

RLinf-USER 在 5 個(gè)真實(shí)任務(wù)中證明了效率和性能。

圖 6 在 5 個(gè)真實(shí)世界任務(wù)上驗(yàn)證 USER，對(duì)應(yīng)不同的 reward、算法、策略

戰(zhàn)績(jī)一：VLA 大模型的在線進(jìn)化

這是目前少有的支持3B 參數(shù) VLA 模型（PI0）在真實(shí)世界進(jìn)行在線微調(diào)的系統(tǒng)。

任務(wù)：桌面清理（Table Clean-up）—— 一個(gè)包含分類、抓取、放置、關(guān)蓋的長(zhǎng)序列任務(wù)。
結(jié)果：通過 HG-DAgger 算法，模型成功率從45%飆升至80%。隨著訓(xùn)練進(jìn)行，人工干預(yù)次數(shù)顯著下降，機(jī)器人逐漸學(xué)會(huì)了獨(dú)立思考。

圖 7 USER 框架使用 HG-DAgger 算法微調(diào) PI0 模型。人工干預(yù)次數(shù)顯著下降，成功率從 45%->80%

戰(zhàn)績(jī)二：異構(gòu)機(jī)器人 “大一統(tǒng)”

RLinf-USER 完成了一項(xiàng)極具挑戰(zhàn)的實(shí)驗(yàn)：讓兩種完全不同的機(jī)器人一起學(xué)習(xí)。

組合：高端的7-DoF Franka機(jī)械臂 + 低成本的6-DoF ARX機(jī)械臂。
效果：盡管它們的構(gòu)型、關(guān)節(jié)數(shù)、攝像頭參數(shù)截然不同，但在 USER 的統(tǒng)一抽象下，它們共同為一個(gè)策略貢獻(xiàn)數(shù)據(jù)。最終，同一個(gè)模型學(xué)會(huì)了控制這兩種截然不同的 “身體”。

圖 8 使用 USER 進(jìn)行異構(gòu)訓(xùn)練

?? 戰(zhàn)績(jī)?nèi)嚎缭角Ю锏?“云 - 邊” 協(xié)同

針對(duì)大模型訓(xùn)練算力在云端、機(jī)器人執(zhí)行在邊緣端的典型場(chǎng)景，RLinf-USER 克服了物理距離和網(wǎng)絡(luò)隔離的障礙。

挑戰(zhàn)：訓(xùn)練節(jié)點(diǎn)位于北京（云端），而機(jī)器人和推理節(jié)點(diǎn)位于數(shù)千公里外的深圳（邊緣端），中間隔著高延遲、帶寬受限且復(fù)雜的公網(wǎng)環(huán)境。
效果：得益于 USER 的隧道網(wǎng)絡(luò)技術(shù)（Tunneling-based Networking）和分布式數(shù)據(jù)通道，跨域通信的效率大幅提升。實(shí)驗(yàn)數(shù)據(jù)顯示，在跨域部署下，單集（Episode）數(shù)據(jù)的生成時(shí)間縮短了約3 倍（從～69 秒降至～22 秒），實(shí)現(xiàn)了如同在局域網(wǎng)般流暢的遠(yuǎn)程分布式訓(xùn)練。

圖 9 USER 自適應(yīng)通信平面顯著降低了跨域部署的通信延遲

?? 戰(zhàn)績(jī)四：異步 vs 同步架構(gòu)速度的碾壓

在經(jīng)典的插孔（Peg Insertion）任務(wù)中：

傳統(tǒng)同步架構(gòu)：收斂需要 8000+ 秒。
RLinf-USER：收斂?jī)H需約 1500 秒。

效率提升超過 5 倍，讓原本漫長(zhǎng)的訓(xùn)練過程變得立等可取。

圖 10 USER 的全異步工作流顯著提升了物理世界中算法的收斂速度

戰(zhàn)績(jī)五：打破 “內(nèi)存墻”，數(shù)據(jù)的無限記憶與極速吞吐

在真實(shí)世界長(zhǎng)周期（Long-horizon）的訓(xùn)練中，數(shù)據(jù)是極其寶貴的資產(chǎn)。針對(duì)傳統(tǒng) Buffer “存不下” 或 “讀得慢” 的痛點(diǎn)，RLinf-USER 拒絕妥協(xié)。

機(jī)制：RLinf-USER 獨(dú)創(chuàng)了持久化緩存感知 Buffer (Persistent-Cache-Aware Buffer)，通過智能索引機(jī)制，將海量歷史數(shù)據(jù)異步落盤，同時(shí)在內(nèi)存中保留高頻熱點(diǎn)數(shù)據(jù)（Cache）。
效果：這是一個(gè) “魚和熊掌兼得” 的方案。實(shí)驗(yàn)評(píng)測(cè)顯示，RLinf-USER 在提供磁盤級(jí) “無限” 容量（支持 TB 級(jí)歷史數(shù)據(jù)回溯）的同時(shí)，實(shí)現(xiàn)了顯著優(yōu)于純磁盤存儲(chǔ)的采樣吞吐量。同樣關(guān)鍵的是，它自帶崩潰恢復(fù)能力，即使實(shí)驗(yàn)因故障意外中斷，長(zhǎng)期積累的寶貴數(shù)據(jù)也能毫發(fā)無損，隨時(shí)重啟 “再戰(zhàn)”。

圖 11 RLinf-USER 的 Buffer 在不同配置下的吞吐量性能測(cè)試，平衡了容量與效率

04. 為什么選擇 RLinf-USER？

如果說 ChatGPT 是 AI 在數(shù)字世界的里程碑，那么 RLinf-USER 致力于成為具身智能在物理世界的基石。

如果你是研究者：它兼容 CNN、Flow-based policy、VLA 等多種策略，支持 RL、IL、Human-in-the-loop 等各種算法。它將模型、算法等模塊解耦，簡(jiǎn)化開發(fā)難度。

如果你是工程師：它提供了工業(yè)級(jí)的穩(wěn)定性（崩潰恢復(fù)）和擴(kuò)展性（自動(dòng)硬件發(fā)現(xiàn)），讓大規(guī)模機(jī)器人集群管理變得像管理服務(wù)器一樣簡(jiǎn)單。

此時(shí)此刻，機(jī)器人不再只是外設(shè)。RLinf-USER，讓智能真正 “具身”。

視頻鏈接：https://mp.weixin.qq.com/s/4iPmPYghEzbWZeyO9jlD5w

RLinf 發(fā)布半年，Github Star 2.5k+，得到了學(xué)術(shù)界和工業(yè)界的廣泛認(rèn)可，達(dá)成了多項(xiàng)戰(zhàn)略合作，包括英偉達(dá) IssacLab、原力靈機(jī) Dexbotic 等，更多家合作官宣也會(huì)盡快和大家見面。道阻且長(zhǎng)，26 年 RLinf 仍在為搭建更好的具身智能基礎(chǔ)設(shè)施而努力，并持續(xù)做好可復(fù)現(xiàn)生態(tài)。團(tuán)隊(duì)也開放招生和招聘，歡迎大家聯(lián)系于超老師（郵件：zoeyuchao@gmail.com）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.