<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      RLinf-USER發(fā)布!別再用仿真,真實(shí)世界訓(xùn)練也能極致效率與系統(tǒng)化

      0
      分享至



      機(jī)器之心發(fā)布

      核心速覽:

      • 首個(gè)統(tǒng)一系統(tǒng):將物理機(jī)器人提升為與 GPU 同等的計(jì)算資源,打破硬件隔閡。
      • ??極致效率:全異步架構(gòu)將真實(shí)世界訓(xùn)練吞吐量提升5.7 倍
      • 異構(gòu)協(xié)同:讓不同品牌、不同構(gòu)型的機(jī)器人(如 Franka + ARX)在同一模型下協(xié)同進(jìn)化。
      • 大模型支持:原生支持 VLA(如 PI0)的云邊端在線微調(diào)。



      • Code: https://github.com/RLinf/RLinf
      • 論文鏈接:https://arxiv.org/abs/2602.07837

      01. 背景:當(dāng) AI 撞上物理世界的墻

      在具身智能的浪潮中,我們已經(jīng)見證了仿真訓(xùn)練的巨大成功。然而,當(dāng)我們?cè)噲D將智能帶入真實(shí)世界時(shí),卻撞上了一堵看不見的墻:

      • 時(shí)間無法加速:物理世界沒有 100 倍速的快進(jìn)鍵,數(shù)據(jù)采集極其昂貴。
      • 系統(tǒng)支離破碎:訓(xùn)練在云端,控制在邊緣,中間隔著不穩(wěn)定的網(wǎng)絡(luò);機(jī)器人被視為難以管理的 “外設(shè)”,而非計(jì)算資源。
      • 數(shù)據(jù)稍縱即逝:一旦發(fā)生故障或網(wǎng)絡(luò)中斷,昂貴的長(zhǎng)序列數(shù)據(jù)往往付諸東流。

      真實(shí)世界的策略學(xué)習(xí)(Real-World Policy Learning),不僅是算法的挑戰(zhàn),更是系統(tǒng)的挑戰(zhàn)。

      今天,我們正式介紹RLinf-USER—— 一個(gè)專為真實(shí)世界在線策略學(xué)習(xí)打造的統(tǒng)一且可擴(kuò)展的系統(tǒng)。它不只是一個(gè)訓(xùn)練框架,更是連接數(shù)字大腦與物理軀體的 “神經(jīng)系統(tǒng)”,是實(shí)現(xiàn)千臺(tái)機(jī)器人物理世界策略進(jìn)化的關(guān)鍵一環(huán)。

      02. RLinf-USER 是什么?

      RLinf-USER (Unified and ExtensibleSystEm forReal-World Online Policy Learning) 是基于 RLinf 基礎(chǔ)設(shè)施構(gòu)建的專用系統(tǒng)。它的核心理念只有一個(gè):將物理世界的復(fù)雜性,封裝為簡(jiǎn)潔的計(jì)算流。



      圖 1 RLinf-USER 是基于 RLinf 構(gòu)建的真機(jī)強(qiáng)化學(xué)習(xí)專用系統(tǒng)

      系統(tǒng)設(shè)計(jì):

      設(shè)計(jì) 1. 機(jī)器人即計(jì)算 (Robot as Compute)

      RLinf 首次提出 “像使用 GPU 一樣使用機(jī)器人” 的概念。在 RLinf-USER 中,機(jī)器人不再是游離于集群之外的 “設(shè)備”。通過統(tǒng)一硬件抽象層 (HAL),物理機(jī)器人被虛擬化為與 GPU/TPU 同等的可調(diào)度資源。

      • 自動(dòng)發(fā)現(xiàn):像插上顯卡一樣,系統(tǒng)自動(dòng)識(shí)別接入的機(jī)器人。
      • 統(tǒng)一調(diào)度:無論是 7 自由度的機(jī)械臂,還是 4090 顯卡,都在同一個(gè)資源池中被統(tǒng)一編排。

      設(shè)計(jì) 2. 云邊端無縫協(xié)同 (Adaptive Cloud-Edge Link)

      大模型在云端,機(jī)器人在邊緣。RLinf-USER 構(gòu)建了一個(gè)自適應(yīng)通信平面:

      • 隧道穿透:無論機(jī)器人身處防火墻后還是復(fù)雜內(nèi)網(wǎng)中,隧道技術(shù)都能建立直達(dá)云端的專線。
      • 流量本地化:智能的分布式數(shù)據(jù)通道,只傳輸必要的訓(xùn)練樣本,將海量原始觀測(cè)數(shù)據(jù)截流在邊緣,無懼帶寬瓶頸。



      圖 2 RLinf-USER 系統(tǒng)設(shè)計(jì)總覽:統(tǒng)一硬件抽象層與自適應(yīng)通信平面

      學(xué)習(xí)框架設(shè)計(jì):



      圖 3 RLinf-USER 學(xué)習(xí)框架設(shè)計(jì)總覽

      ?? 設(shè)計(jì) 3. 全異步進(jìn)化引擎 (Fully Asynchronous Pipeline)

      真實(shí)世界不能等待。傳統(tǒng)的 “采集 - 訓(xùn)練” 同步循環(huán)會(huì)讓機(jī)器人把大量時(shí)間浪費(fèi)在等待計(jì)算上。

      RLinf-USER 采用了全異步流水線設(shè)計(jì)

      • 永不停歇:機(jī)器人在持續(xù)工作,GPU 在持續(xù)計(jì)算,網(wǎng)絡(luò)在持續(xù)更新。三個(gè)進(jìn)程完全解耦,互不等待。
      • 極致吞吐:在 VLA 模型訓(xùn)練中,這種設(shè)計(jì)將整體吞吐量提升了5.70 倍!這意味著在同樣的物理時(shí)間內(nèi),你的機(jī)器人能多學(xué) 5 倍的經(jīng)驗(yàn)。



      圖 4 全異步流水線

      設(shè)計(jì) 4. 數(shù)據(jù)的 “時(shí)光機(jī)” (Persistent-Cache-Aware Buffer)

      我們?cè)O(shè)計(jì)了持久化緩存感知緩沖區(qū):

      • 無限記憶:打破內(nèi)存限制,支持 TB 級(jí)甚至 PB 級(jí)的歷史軌跡存儲(chǔ)。
      • 崩潰恢復(fù):即使實(shí)驗(yàn)意外中斷,數(shù)據(jù)和狀態(tài)也能毫發(fā)無損,支持長(zhǎng)達(dá)數(shù)周的連續(xù)訓(xùn)練。



      圖 5 持久化緩存感知 buffer

      設(shè)計(jì) 5. 豐富的在線學(xué)習(xí)組件支持

      USER 在統(tǒng)一的接口下,支持了多樣的學(xué)習(xí)組件,模塊化的設(shè)計(jì)易于二次開發(fā):

      • 模型支持:CNN model,F(xiàn)low matching model,VLA(如 PI0)
      • 算法支持:強(qiáng)化學(xué)習(xí)(如 SAC、SAC Flow)、模仿學(xué)習(xí)(如 HG-DAgger)
      • 獎(jiǎng)勵(lì)函數(shù)支持:規(guī)則獎(jiǎng)勵(lì)、人工獎(jiǎng)勵(lì)、獎(jiǎng)勵(lì)模型

      03. 硬核實(shí)戰(zhàn):它能做到什么?

      RLinf-USER 在 5 個(gè)真實(shí)任務(wù)中證明了效率和性能。



      圖 6 在 5 個(gè)真實(shí)世界任務(wù)上驗(yàn)證 USER,對(duì)應(yīng)不同的 reward、算法、策略

      戰(zhàn)績(jī)一:VLA 大模型的在線進(jìn)化

      這是目前少有的支持3B 參數(shù) VLA 模型(PI0)在真實(shí)世界進(jìn)行在線微調(diào)的系統(tǒng)。

      • 任務(wù):桌面清理(Table Clean-up)—— 一個(gè)包含分類、抓取、放置、關(guān)蓋的長(zhǎng)序列任務(wù)。
      • 結(jié)果:通過 HG-DAgger 算法,模型成功率從45%飆升至80%。隨著訓(xùn)練進(jìn)行,人工干預(yù)次數(shù)顯著下降,機(jī)器人逐漸學(xué)會(huì)了獨(dú)立思考。





      圖 7 USER 框架使用 HG-DAgger 算法微調(diào) PI0 模型。人工干預(yù)次數(shù)顯著下降,成功率從 45%->80%

      戰(zhàn)績(jī)二:異構(gòu)機(jī)器人 “大一統(tǒng)”

      RLinf-USER 完成了一項(xiàng)極具挑戰(zhàn)的實(shí)驗(yàn):讓兩種完全不同的機(jī)器人一起學(xué)習(xí)。

      • 組合:高端的7-DoF Franka機(jī)械臂 + 低成本的6-DoF ARX機(jī)械臂。
      • 效果:盡管它們的構(gòu)型、關(guān)節(jié)數(shù)、攝像頭參數(shù)截然不同,但在 USER 的統(tǒng)一抽象下,它們共同為一個(gè)策略貢獻(xiàn)數(shù)據(jù)。最終,同一個(gè)模型學(xué)會(huì)了控制這兩種截然不同的 “身體”。





      圖 8 使用 USER 進(jìn)行異構(gòu)訓(xùn)練

      ?? 戰(zhàn)績(jī)?nèi)嚎缭角Ю锏?“云 - 邊” 協(xié)同

      針對(duì)大模型訓(xùn)練算力在云端、機(jī)器人執(zhí)行在邊緣端的典型場(chǎng)景,RLinf-USER 克服了物理距離和網(wǎng)絡(luò)隔離的障礙。

      • 挑戰(zhàn):訓(xùn)練節(jié)點(diǎn)位于北京(云端),而機(jī)器人和推理節(jié)點(diǎn)位于數(shù)千公里外的深圳(邊緣端),中間隔著高延遲、帶寬受限且復(fù)雜的公網(wǎng)環(huán)境。
      • 效果:得益于 USER 的隧道網(wǎng)絡(luò)技術(shù)(Tunneling-based Networking)和分布式數(shù)據(jù)通道,跨域通信的效率大幅提升。實(shí)驗(yàn)數(shù)據(jù)顯示,在跨域部署下,單集(Episode)數(shù)據(jù)的生成時(shí)間縮短了約3 倍(從~69 秒 降至~22 秒),實(shí)現(xiàn)了如同在局域網(wǎng)般流暢的遠(yuǎn)程分布式訓(xùn)練。



      圖 9 USER 自適應(yīng)通信平面顯著降低了跨域部署的通信延遲

      ?? 戰(zhàn)績(jī)四:異步 vs 同步架構(gòu)速度的碾壓

      在經(jīng)典的插孔(Peg Insertion)任務(wù)中:

      • 傳統(tǒng)同步架構(gòu):收斂需要 8000+ 秒。
      • RLinf-USER:收斂?jī)H需約 1500 秒。

      效率提升超過 5 倍,讓原本漫長(zhǎng)的訓(xùn)練過程變得立等可取。



      圖 10 USER 的全異步工作流顯著提升了物理世界中算法的收斂速度

      戰(zhàn)績(jī)五:打破 “內(nèi)存墻”,數(shù)據(jù)的無限記憶與極速吞吐

      在真實(shí)世界長(zhǎng)周期(Long-horizon)的訓(xùn)練中,數(shù)據(jù)是極其寶貴的資產(chǎn)。針對(duì)傳統(tǒng) Buffer “存不下” 或 “讀得慢” 的痛點(diǎn),RLinf-USER 拒絕妥協(xié)。

      • 機(jī)制:RLinf-USER 獨(dú)創(chuàng)了持久化緩存感知 Buffer (Persistent-Cache-Aware Buffer),通過智能索引機(jī)制,將海量歷史數(shù)據(jù)異步落盤,同時(shí)在內(nèi)存中保留高頻熱點(diǎn)數(shù)據(jù)(Cache)。
      • 效果:這是一個(gè) “魚和熊掌兼得” 的方案。實(shí)驗(yàn)評(píng)測(cè)顯示,RLinf-USER 在提供磁盤級(jí) “無限” 容量(支持 TB 級(jí)歷史數(shù)據(jù)回溯)的同時(shí),實(shí)現(xiàn)了顯著優(yōu)于純磁盤存儲(chǔ)的采樣吞吐量。同樣關(guān)鍵的是,它自帶崩潰恢復(fù)能力,即使實(shí)驗(yàn)因故障意外中斷,長(zhǎng)期積累的寶貴數(shù)據(jù)也能毫發(fā)無損,隨時(shí)重啟 “再戰(zhàn)”。



      圖 11 RLinf-USER 的 Buffer 在不同配置下的吞吐量性能測(cè)試,平衡了容量與效率

      04. 為什么選擇 RLinf-USER?

      如果說 ChatGPT 是 AI 在數(shù)字世界的里程碑,那么 RLinf-USER 致力于成為具身智能在物理世界的基石。

      如果你是研究者:它兼容 CNN、Flow-based policy、VLA 等多種策略,支持 RL、IL、Human-in-the-loop 等各種算法。它將模型、算法等模塊解耦,簡(jiǎn)化開發(fā)難度。

      如果你是工程師:它提供了工業(yè)級(jí)的穩(wěn)定性(崩潰恢復(fù))和擴(kuò)展性(自動(dòng)硬件發(fā)現(xiàn)),讓大規(guī)模機(jī)器人集群管理變得像管理服務(wù)器一樣簡(jiǎn)單。

      此時(shí)此刻,機(jī)器人不再只是外設(shè)。RLinf-USER,讓智能真正 “具身”。



      視頻鏈接:https://mp.weixin.qq.com/s/4iPmPYghEzbWZeyO9jlD5w

      RLinf 發(fā)布半年,Github Star 2.5k+,得到了學(xué)術(shù)界和工業(yè)界的廣泛認(rèn)可,達(dá)成了多項(xiàng)戰(zhàn)略合作,包括英偉達(dá) IssacLab、原力靈機(jī) Dexbotic 等,更多家合作官宣也會(huì)盡快和大家見面。道阻且長(zhǎng),26 年 RLinf 仍在為搭建更好的具身智能基礎(chǔ)設(shè)施而努力,并持續(xù)做好可復(fù)現(xiàn)生態(tài)。團(tuán)隊(duì)也開放招生和招聘,歡迎大家聯(lián)系于超老師(郵件:zoeyuchao@gmail.com)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      1966年賀敏學(xué)被捕,李敏向父親匯報(bào)情況,毛澤東:你舅舅是個(gè)好人

      1966年賀敏學(xué)被捕,李敏向父親匯報(bào)情況,毛澤東:你舅舅是個(gè)好人

      大運(yùn)河時(shí)空
      2026-02-10 12:25:03
      毛岸英犧牲70年后,彭德懷絕密信件首次公開,他在信中說了什么?

      毛岸英犧牲70年后,彭德懷絕密信件首次公開,他在信中說了什么?

      元哥說歷史
      2026-02-11 12:50:03
      父親分拆遷款給弟480萬,只給我10萬,我剛要走他攔下:話沒說完

      父親分拆遷款給弟480萬,只給我10萬,我剛要走他攔下:話沒說完

      曉艾故事匯
      2025-11-19 08:06:37
      女子病重給自己買墓地,發(fā)朋友圈說買了房,父母卻要她加弟弟名字

      女子病重給自己買墓地,發(fā)朋友圈說買了房,父母卻要她加弟弟名字

      紙鳶奇譚
      2026-02-11 10:49:07
      癌癥的“源頭”已發(fā)現(xiàn)?咸菜沒上榜,第1名大家或天天都在吃!

      癌癥的“源頭”已發(fā)現(xiàn)?咸菜沒上榜,第1名大家或天天都在吃!

      蜉蝣說
      2026-02-08 16:30:09
      老人將5萬現(xiàn)金藏在洗手臺(tái)下,霉成黏糊糊一團(tuán)!銀行:成功兌換4.99萬

      老人將5萬現(xiàn)金藏在洗手臺(tái)下,霉成黏糊糊一團(tuán)!銀行:成功兌換4.99萬

      環(huán)球網(wǎng)資訊
      2026-02-10 12:43:37
      向華強(qiáng)最害怕的事:不是向佐在娛樂圈丟臉,而是新聞?dòng)邢蛴拥拿?>
    </a>
        <h3>
      <a href=小熊侃史
      2026-02-11 12:51:10
      1951年毛主席點(diǎn)名邀請(qǐng)羅吉林共度國(guó)慶,羅吉林:沒想到黨還記得我

      1951年毛主席點(diǎn)名邀請(qǐng)羅吉林共度國(guó)慶,羅吉林:沒想到黨還記得我

      歷史龍?jiān)w
      2026-02-10 11:35:14
      小鼠研究表明,挖鼻孔與阿爾茨海默病之間存在令人驚訝的聯(lián)系

      小鼠研究表明,挖鼻孔與阿爾茨海默病之間存在令人驚訝的聯(lián)系

      心中的麥田
      2026-01-21 20:18:15
      泰國(guó)白龍王一生不敢去中國(guó),和弟子吐露:749局讓他心生畏懼

      泰國(guó)白龍王一生不敢去中國(guó),和弟子吐露:749局讓他心生畏懼

      宅家伍菇?jīng)?/span>
      2025-02-05 17:44:30
      全新一代豐田漢蘭達(dá)來了!純電驅(qū)動(dòng)、7座布局,國(guó)產(chǎn)能大賣?

      全新一代豐田漢蘭達(dá)來了!純電驅(qū)動(dòng)、7座布局,國(guó)產(chǎn)能大賣?

      優(yōu)視汽車
      2026-02-11 13:03:04
      一路走好!離春節(jié)僅剩1周,5位名人接連去世,最小20歲 令人唏噓

      一路走好!離春節(jié)僅剩1周,5位名人接連去世,最小20歲 令人唏噓

      法老不說教
      2026-02-11 13:09:43
      撿漏二手物品簡(jiǎn)直太香了!網(wǎng)友分享一個(gè)比一個(gè)羨慕,冒青煙了

      撿漏二手物品簡(jiǎn)直太香了!網(wǎng)友分享一個(gè)比一個(gè)羨慕,冒青煙了

      夜深愛雜談
      2026-01-30 18:07:30
      65年谷牧到四川視察開會(huì)見彭德懷坐臺(tái)下,立即中斷會(huì)議:您回去吧

      65年谷牧到四川視察開會(huì)見彭德懷坐臺(tái)下,立即中斷會(huì)議:您回去吧

      春秋硯
      2026-02-11 13:15:07
      八十歲的張柬之發(fā)動(dòng)神龍政變,推翻了武則天的統(tǒng)治,后來下場(chǎng)如何

      八十歲的張柬之發(fā)動(dòng)神龍政變,推翻了武則天的統(tǒng)治,后來下場(chǎng)如何

      史筆似塵鉤
      2025-07-11 21:49:21
      馮小剛女兒徐朵約會(huì)男生曝光!見媽媽徐帆氣氛好,男生高大帥氣

      馮小剛女兒徐朵約會(huì)男生曝光!見媽媽徐帆氣氛好,男生高大帥氣

      暖心萌阿菇?jīng)?/span>
      2026-02-10 21:28:52
      佛山一工廠通知火了!年終獎(jiǎng)6%年薪,放假21天,套路太深引發(fā)爭(zhēng)議

      佛山一工廠通知火了!年終獎(jiǎng)6%年薪,放假21天,套路太深引發(fā)爭(zhēng)議

      火山詩話
      2026-02-10 15:19:21
      漢人最偉大的巔峰之戰(zhàn)!若此戰(zhàn)失敗,中國(guó)或?qū)⒎至殉蓭资畟€(gè)小國(guó)

      漢人最偉大的巔峰之戰(zhàn)!若此戰(zhàn)失敗,中國(guó)或?qū)⒎至殉蓭资畟€(gè)小國(guó)

      千秋文化
      2026-01-06 20:49:21
      太陽完勝!布克19+6創(chuàng)紀(jì)錄,火箭棄將23+4高開低走,狀元27分14罰

      太陽完勝!布克19+6創(chuàng)紀(jì)錄,火箭棄將23+4高開低走,狀元27分14罰

      魚崖大話籃球
      2026-02-11 12:29:32
      黎智英被判20年,黎智英之子要求放人,美國(guó)要求放人,但忽略一點(diǎn)

      黎智英被判20年,黎智英之子要求放人,美國(guó)要求放人,但忽略一點(diǎn)

      DS北風(fēng)
      2026-02-10 11:15:02
      2026-02-11 13:55:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12287文章數(shù) 142565關(guān)注度
      往期回顧 全部

      科技要聞

      痛失兩位華裔大佬!馬斯克為何留不住人心

      頭條要聞

      媒體:俄外長(zhǎng)突然放下狠話 令人感覺到一陣陣寒意

      頭條要聞

      媒體:俄外長(zhǎng)突然放下狠話 令人感覺到一陣陣寒意

      體育要聞

      搞垮一個(gè)冬奧選手,只需要一首歌?

      娛樂要聞

      汪峰吃驚!章子怡年前6天高調(diào)官宣喜訊

      財(cái)經(jīng)要聞

      習(xí)酒節(jié)前價(jià)格雪崩控量穩(wěn)價(jià)變空談

      汽車要聞

      新款阿維塔12內(nèi)飾官圖:全面升級(jí) 兼顧智能與豪華

      態(tài)度原創(chuàng)

      時(shí)尚
      游戲
      數(shù)碼
      親子
      旅游

      伊姐周日熱推:電視劇《重返青春》;電視劇《女神蒙上眼》......

      值得期待!外媒盤點(diǎn)索尼新游戲發(fā)布會(huì)每款都是重量級(jí)

      數(shù)碼要聞

      中國(guó)好屏,標(biāo)準(zhǔn)為尺:全球顯示迎來“中國(guó)時(shí)刻”

      親子要聞

      葉酸這樣吃很危險(xiǎn)!醫(yī)生勸告:很多人吃錯(cuò)了,盡快改正

      旅游要聞

      請(qǐng)到廣東過大年!新春登廣州塔,贏開年好禮

      無障礙瀏覽 進(jìn)入關(guān)懷版