<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      RLinf v0.2嘗鮮版發布,像使用GPU一樣使用你的機器人!

      0
      分享至



      在具身智能領域,特別是如何構造一個高泛化性的 VLA,數據之爭一直存在:仿真數據 vs 真機數據。數據來源不同,導致算法設計迥然不同,進一步對系統設計提出了更多的要求。做 infra 的目標是做好服務,支持不同技術路線的探索。

      「仿訓推一體化」RLinf v0.1 面向的是采用仿真路線的用戶,那么今天要給大家介紹的是 RLinf v0.2,面向采用真機路線的用戶,也就是支持了真機強化學習。



      • 論文標題:RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation
      • 論文地址:https://arxiv.org/abs/2509.15965
      • 開源地址:https://github.com/RLinf/RLinf

      下面針對 RLinf v0.2 的特色展開介紹。

      特色 1:RLinf 允許用戶

      像使用 GPU 一樣使用機器人

      在 RLinf 中,我們將機器人看作與 GPU 相同層級的、可靈活配置的資源,如圖 1 所示,GPU Node 和 Robot Node 處于同一層級。過去我們通常把 Worker(訓練、推理等工作組件)加載在 GPU 上,現在我們可以把 Worker 加載在機器人上。只要能夠 access 到機器人的 IP 和端口,無論它們身在何處,都可以接入 RLinf 系統。

      RLinf 會按照用戶配置進一步完成模型與機器人的對應映射,之后 RLinf 會通過 Data Channel(RLinf 的通信原語)完成數據收集和模型參數更新。而實現這一切,用戶只需要編寫 YAML 文件即可完成,極大地降低了使用成本。例如,下圖 2 展示了以 Franka 為例的 2 臺機器人配置方法。



      圖 1 將機器人看作與 GPU 相同層級的、可靈活配置的資源 圖 2 用戶只需要編寫 YAML 文件即可完成真機對接



      圖2 用戶只需要編寫YAML文件即可完成真機對接

      RLinf 這一獨特設計是為了解鎖更宏大的目標,即大規模分布式真機強化學習訓練范式,如圖 3 所示。

      這一范式將有望成為具身智能在除了 Scaling 數據、模型之外的第三條路徑:Scaling 真機。大規模真機強化學習能夠解決當下真機強化學習面臨的諸多問題,當然,天下沒有免費的午餐,放松了對算法的要求,對應地增加了對 infra 的要求,如何做到穩定、易用、靈活是 infra 要解決的主要挑戰。

      RLinf 針對這一問題給出了自己的答案:極度靈活的系統設計思想支持多樣需求。特別地,RLinf 提出適配強化學習的新一代編程范式 Macro-to-Micro Flow (M2Flow),將上層工作流與底層計算優化解耦,兼顧了靈活性與高效性。



      圖 3 大規模分布式真機強化學習系統

      特色 2:RLinf 支持

      全異構軟硬件集群配置

      由于與物理世界高度耦合,真機強化學習面臨的集群配置通常是異構的、端云協同的。例如,機器人的控制端需要實時操作系統且不需要運行神經網絡模型,通常會運行在單獨的 CPU 機器,如 NUC;VLA 模型推理端需要與機器人的控制端足夠近,使得通信代價最小,且推理需要顯存較小,因此 VLA 模型推理通常直接運行在端側小顯存機器,如 24GB 的 4090;VLA 模型訓練為了加快訓練速度,通常需要云端大顯存機器集群,如 80GB 的 A100/800 等。

      在端云協同的背景下,RLinf 支持靈活的全異構的軟硬件集群配置,提升系統吞吐和訓練效率。例如,你可以:

      • 在支持光線追蹤的 GPU(如 RTX 4090)上運行高保真模擬器;
      • 在大顯存計算 GPU(如 A800)上進行訓練;
      • 在小顯存計算 GPU(如 RTX 4090)進行推理;
      • 在無顯存的 CPU 機器(如 NUC)運行機器人控制器。

      在 RLinf 中接入這樣的異構環境,只需要在 YAML 配置文件中正確配置 cluster 段落即可,如下圖 4 所示。



      圖 4 RLinf 支持全異構軟硬件集群配置

      特色 3:RLinf 支持

      全異步 off-policy 算法

      真機強化學習的一個典型局限就是物理世界無法被加速,數據效率成為顯著瓶頸,所以如何提高數據利用率成為關鍵一環。除此之外,當下真機強化學習的一種行之有效的方法是人在環介入,例如在執行過程中提供專家示教數據,或者實時標注數據等,傳統同步訓推框架將會極大限制這一類方法的訓練效率。

      因此,RLinf v0.2 新增全異步設計,端側推理節點與云側訓練節點解耦,通過 Data Channel 進行數據周期性同步,進而實現訓推并行,極大提高訓練效率。同時,RLinf v0.2 上線典型 off-policy RL 算法,包括僅利用在線數據的 SAC [1]、CrossQ [2] 和同時利用離線數據集和在線數據的 RLPD [3] 等,進一步提升數據利用率。RLinf 中異步工作流示意圖如圖 5 所示。



      圖 5 全異步算法流圖

      實驗結果

      本次發布的嘗鮮版是基于小模型的真機強化學習。為了方便大家快速、低成本復現實驗,我們采用常見的Franka 機械臂,基于常見物品或者易獲取標準件設計了兩個快速驗證任務:ChargerPeg Insertion。其中,Charger 任務為稠密獎勵,使用異步 SAC [1] 算法訓練,訓練過程中有 20 次左右的人在環空間鼠標接管,以提高訓練效率。Peg Insertion 任務為稀疏獎勵,使用異步 RLPD 算法 [3] 訓練。在開始訓練前,采集了 20 條人類操作數據存儲在 Demo Buffer 中。

      兩個任務的成功率曲線如圖 6 所示。可以發現,兩個任務均可以在 1.5h 以內收斂。收斂后,Peg Insertion 任務可以連續 100+ 次成功,Charger 任務可以連續 50+ 次成功



      圖 6 Peg Insertion & Charger 成功率曲線

      訓練過程的視頻記錄如視頻 1 所示,完整記錄了兩個任務的訓練過程。同時我們也驗證了位于不同空間的兩臺 Franka 機械臂同時進行真機強化學習,見視頻 2。

      視頻 1:訓練過程。上:Peg Insertion;下:Charger

      視頻 2:位于不同房間的兩臺 Franka 機械臂同時進行真機強化學習

      RLinf 全體成員向支持 RLinf 的 2k 位社區用戶表達感謝。用戶的使用和反饋促使團隊不斷完善代碼,也不斷增加了團隊堅定走下去的信心。自 2025.9.1 發布以來,RLinf 幾乎保持著每 2 周更新一次新 feature 的開發速度,在經過幾輪重構后,面向具身仿真路線需求的「仿訓推一體化」強化學習框架 RLinf v0.1 版本于 2025.12.17 正式 release,歡迎大家查看中英雙語文檔(對!除了代碼沒有中文版,其他材料都有中文版!不要錯過!)。目前 RLinf 支持矩陣可以總結如下:

      • Simulator:Maniskill、IsaacLab、LIBERO、CALVIN、MetaWorld、Behavior、RoboCasa
      • VLA:Pi0,Pi05,GR00T,OpenVLA,OpenVLA-OFT
      • Custom policy:MLP、CNN
      • RL Algos:GRPO、PPO、DAPO、Reinforce++
      • SFT:Full-para SFT、LoRA

      仿真路線還在持續開發,更多的 feature,如仿真器、模型也會盡快跟大家見面!

      參考文獻:

      [1] Haarnoja, Tuomas, et al. "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor." International Conference on Machine Learning. PMLR, 2018.

      [2] Bhatt, Aditya, et al. "CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity." The Twelfth International Conference on Learning Representations, 2024.

      [3] Ball, Philip J., et al. "Efficient online reinforcement learning with offline data." International Conference on Machine Learning. PMLR, 2023.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      央視直播兩場英超,利物浦主力停賽,曼城等待阿森納掉隊

      央視直播兩場英超,利物浦主力停賽,曼城等待阿森納掉隊

      嗨皮看球
      2025-12-26 15:59:53
      關系藏不住了!樊振東放著世界冠軍陳夢不選,原來他喜歡這樣的

      關系藏不住了!樊振東放著世界冠軍陳夢不選,原來他喜歡這樣的

      誮惜顏a
      2025-12-24 05:53:10
      終于讓步?俄愿簽署保證書,當威脅消失,美國的大棒將落向何方?

      終于讓步?俄愿簽署保證書,當威脅消失,美國的大棒將落向何方?

      科普100克克
      2025-12-24 00:02:38
      2025年,消失的公司年會。

      2025年,消失的公司年會。

      愛吃糖的貓cat
      2025-12-24 19:01:36
      若有一天中日開戰,日退役少將預言三大后果,日本唯一生機曝光

      若有一天中日開戰,日退役少將預言三大后果,日本唯一生機曝光

      小莜讀史
      2025-12-25 20:08:44
      中國航母進度驚人,3艘航母已經動工,2030解放軍將有6個航母群

      中國航母進度驚人,3艘航母已經動工,2030解放軍將有6個航母群

      胖福的小木屋
      2025-12-25 22:29:39
      越南首富緊急撤回投資,南北高鐵8天就夢碎,這個天坑誰接誰倒霉

      越南首富緊急撤回投資,南北高鐵8天就夢碎,這個天坑誰接誰倒霉

      知鑒明史
      2025-12-26 19:14:26
      葉劍英詢問許世友:南京軍區還聽你調遣嗎?許世友直言:軍區司令就是我的貼身保鏢

      葉劍英詢問許世友:南京軍區還聽你調遣嗎?許世友直言:軍區司令就是我的貼身保鏢

      清風鑒史
      2025-12-24 15:02:13
      廣州一家5口墜江遇難!4大1小,原因令人憤怒,村民透露更多

      廣州一家5口墜江遇難!4大1小,原因令人憤怒,村民透露更多

      阿纂看事
      2025-12-26 09:43:37
      1988年,一位臺籍老者回大陸探親,說出名字的瞬間驚動中央,很快便獲批復:恢復黨籍,享受相關優待

      1988年,一位臺籍老者回大陸探親,說出名字的瞬間驚動中央,很快便獲批復:恢復黨籍,享受相關優待

      文史明鑒
      2025-12-25 18:02:17
      為報戰友救命之恩,我娶了他38歲的姐姐,結婚2年我才發現她身份

      為報戰友救命之恩,我娶了他38歲的姐姐,結婚2年我才發現她身份

      蕭竹輕語
      2025-12-12 16:25:15
      開國大將之子戀上女演員,母親流淚勸分,得知真相后她做出決定?

      開國大將之子戀上女演員,母親流淚勸分,得知真相后她做出決定?

      小熊侃史
      2025-12-26 11:18:53
      烏度卡:擁有謝潑德的投射是一種奢侈,他的擋拆越來越好了

      烏度卡:擁有謝潑德的投射是一種奢侈,他的擋拆越來越好了

      懂球帝
      2025-12-26 15:28:10
      全體集合,下周的預測出來了!A股突然“跳水”,我來說兩句!

      全體集合,下周的預測出來了!A股突然“跳水”,我來說兩句!

      一擔金
      2025-12-26 12:51:37
      中共中央組織部批準:陳培華同志任山東省紀委副書記

      中共中央組織部批準:陳培華同志任山東省紀委副書記

      新京報政事兒
      2025-12-26 14:53:04
      墜河車輛隔日才成功打撈,車內是廣州一家五口,4大1小無一生還!

      墜河車輛隔日才成功打撈,車內是廣州一家五口,4大1小無一生還!

      今朝牛馬
      2025-12-26 16:09:40
      醫生:堅持走路鍛煉的老人,過不了幾個月,身體會迎來5大變化

      醫生:堅持走路鍛煉的老人,過不了幾個月,身體會迎來5大變化

      岐黃傳人孫大夫
      2025-12-24 09:08:19
      70歲大媽坦言:到了晚年才明白,最親的人根本不是老伴

      70歲大媽坦言:到了晚年才明白,最親的人根本不是老伴

      惟來
      2025-12-25 14:37:37
      劉雪峰故意殺人案再審宣判:檢辯雙方均認為無罪,吉林高院維持有罪原判

      劉雪峰故意殺人案再審宣判:檢辯雙方均認為無罪,吉林高院維持有罪原判

      澎湃新聞
      2025-12-26 11:48:27
      浙江某建筑集團“暴雷”,大面積欠薪!

      浙江某建筑集團“暴雷”,大面積欠薪!

      黯泉
      2025-12-25 23:38:43
      2025-12-26 21:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12000文章數 142521關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      寶馬網紅銷冠推行"一口價"賣車:來回談價累 8天賣11輛

      頭條要聞

      寶馬網紅銷冠推行"一口價"賣車:來回談價累 8天賣11輛

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態度原創

      房產
      家居
      手機
      親子
      軍事航空

      房產要聞

      炸裂,三亞360億超級清單發布,又一批重大配套要來了!

      家居要聞

      格調時尚 智慧品質居所

      手機要聞

      榮耀Power2再次被確認:外觀配置全揭秘,是否值得期待?

      親子要聞

      62歲懷二胎后續:妹妹發視頻曝光真相,醫生擔心,惡心的一幕出現

      軍事要聞

      烏最新20點俄烏和平草案遞交莫斯科 俄方拒絕

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品原创av片国产日韩| 班玛县| 精品无码一区二区三区的天堂| 夜夜躁狠狠躁日日躁视频| av永久天堂一区二区三区| 97精品伊人久久久大香线蕉 | 亚洲色婷婷六月亚洲婷婷6月| 久久综合国产精品一区二区| 亚洲激情av| 高安市| www内射国产在线观看| 亚洲成人无码电影| 妓女视频一区二区| 乱人伦国语对白| 日韩欧美卡一卡二卡新区| 无套内谢孕妇毛片免费看| 日本一区二区三区在线 |观看| 伊人免费在线| 国产av剧情md精品麻豆| 国内精品久久久久影院一蜜桃| 亚洲精品中文字幕二区| 91视频最新网址| 蜜桃精品成人影片| 精品无码一区二区三区爱欲| 国产精品?制服丝袜?中文字幕| 亚洲制服人妻| 亚洲精品国产精品国自产观看| 亚洲精品欧美综合二区| 自拍偷拍亚洲| 午夜天堂av天堂久久久| 伊人在线视频| 97人妻精品一区二区三区软件| 日本婷婷色| 久久国产色av免费观看| 野花香视频在线观看免费高清版| 久草视频网| 全黄h全肉边做边吃奶视频| 精品国产a∨无码一区二区三区| 99在线观看| 永春县| 国产熟妇久久777777|