<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      一塊GPU訓練,15分鐘內實現仿真實境遷移,人形機器人端到端控制新策略來了!

      0
      分享至

      大數據文摘受權轉載自頭部科技

      文丨譚梓馨

      大規模并行仿真已將機器人強化學習(RL)的訓練時間從數天縮短至數分鐘。

      然而,由于高維性、域隨機化等因素帶來的挑戰,在人形機器人控制方面實現快速且可靠的仿真實境遷移(Sim2Real)仍面臨困難。


      近日,Amazon FAR團隊提出一種基于離策略強化學習算法(即FastSAC與 FastTD3)的簡潔實用方案,僅需單塊RTX 4090 GPU,即可在15分鐘內快速訓練出人形機器人移動控制策略。

      研究人員在宇樹G1(Unitree G1)和加速進化T1(Booster T1)機器人上驗證了該方案的有效性。在強域隨機化條件下,如動力學隨機化、崎嶇地形、推力擾動等,可實現端到端的人形機器人控制策略快速學習,同時也支持全身人體運動跟蹤策略的快速訓練,該方案開源發布在Holosoma代碼庫中。

      極簡策略,給訓練提提速

      仿真實境遷移(Sim2Real)開發本質上是一個迭代過程:在仿真環境中訓練策略并部署到硬件后,會暴露出未建模動力學、感知誤差等域差異問題。

      隨后需通過改進仿真環境修正這些差異,這就要求重新訓練整個流程,由于這類迭代需持續至策略達到可靠水平,因此快速仿真成為保障迭代可行性的關鍵前提。

      盡管現代并行仿真器具備高效特性,但這些迭代周期在實際應用中仍存在較高成本,尤其適用于人形機器人等高維系統時,而想要實現策略向真實世界的魯棒遷移,訓練時間又要重回數小時級別。

      因此,盡管并行仿真在原始吞吐量上實現了顯著提升,但人形機器人領域控制實現快速、可靠的仿真實境遷移迭代仍是一項挑戰。


      這項研究提出的FastSAC and FastTD3方案,將人形機器人仿真實境遷移的迭代時間重新縮短至分鐘級。
      FastSACFastTD3是流行的離策略強化學習算法SAC和TD3的高性能變體,針對大規模并行仿真訓練進行了優化。
      該方案采用大規模并行仿真對FastSAC與FastTD3智能體進行訓練。研究發現,增加并行環境數量的效果在具有挑戰性的全身運動跟蹤任務中尤為顯著,此外,在每個仿真步驟中執行更多梯度更新步驟通常能加快訓練收斂速度。


      訓練SAC或TD3等離策略強化學習算法時,一項核心挑戰是為其雙曲正切(Tanh)策略設置合理的動作邊界,研究人員提出一種簡潔技術:在使用比例-微分(PD)控制器時,基于機器人的關節限位來設定動作邊界。
      他們計算出每個關節的限位與默認位置之間的差值,并將該差值作為對應關節的動作邊界,實驗表明,該方法可有效降低FastSAC與FastTD3訓練過程中動作邊界的調參需求。
      人形機器人移動控制與全身控制的獎勵函數設計,傳統上依賴復雜的獎勵塑形技術,通常包含20余項獎勵項,這項研究證實:通過大幅簡化的目標函數(不足10項獎勵項),即可讓機器人產生魯棒且自然的行為。


      具體而言,該方案遵循極簡獎勵設計理念——僅在必要時添加獎勵項,并力求在不同算法與機器人之間保持近乎一致的獎勵集合,設計目標并非強制機器人遵循特定運動模式,而是在保留行為多樣性的前提下,為魯棒移動控制與全身控制提供足夠的約束結構。


      更少的獎勵項還能簡化超參數調優過程,支持快速遍歷超參數空間,這對于仿真實境遷移的迭代效率至關重要。
      而針對全身運動跟蹤任務,研究人員還發現,以速度推力形式引入外部擾動,可進一步提升仿真實境遷移的魯棒性。

      時間雖短,但效果很好


      研究人員在單塊RTX 4090 GPU上,僅用15分鐘便完成了端到端的完整人形機器人移動控制策略訓練——訓練過程涵蓋動力學隨機化、崎嶇地形、推力擾動等強域隨機化條件,并融入自動動作頻率學習機制。

      來看看實訓效果:


      此外,該離策略強化學習方案具備優異的可擴展性,能夠顯著加速全身運動跟蹤策略的訓練——在4塊L40s GPU、16384個并行環境的配置下,FastSAC與FastTD3算法在相同實驗條件下,學習完成完整舞蹈動作序列的速度也顯著快于PPO算法。

      而且,雖然只接受了15分鐘的訓練,但機器人已能穩定地站立和行走,并且能夠抵抗推力擾動。


      FastSAC與FastTD3同樣能夠快速訓練宇樹G1人形機器人實現人體運動跟蹤,包括持續時間超過2分鐘的長序列舞蹈動作,其性能效果與主流的PPO算法相當或更優。


      亞馬遜發力機器人

      值得關注的是,亞馬遜FAR團隊同步開源了Holosoma,這是一個綜合軟件框架,旨在簡化訓練和部署人形機器人的復雜流程。

      Holosoma源自希臘語,意為“全身”,通過在單個訓練代碼庫中支持多個仿真后端來解決各種仿真環境之間的脫節,以及“后端”碎片化等問題。

      近期報道顯示,亞馬遜的內部目標是在未來幾年內實現75%的運營自動化,在2033年前可能會減少雇傭超過60萬名人類員工,同時還能將運營效率翻一番,要實現這一目標,就需要能夠適應非結構化環境并操作各種物體的機器人——而這些問題是傳統的、硬編碼的自動化方式無法解決的。


      FAR團隊目前匯聚了不少核心華人學者,Rocky Duan目前為FAR研究負責人,此外還匯聚了Peter Chen、Tianhao Zhang、Liang-Chieh Chen、Ziqi Lu等頂尖華人研究員。

      FAR團隊認為,未來將離策略強化學習與人形機器人學習領域的最新進展融入該方案,有望進一步推動該領域的技術前沿。

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗國防部隊: 進入全面備戰狀態

      伊朗國防部隊: 進入全面備戰狀態

      每日經濟新聞
      2026-02-19 16:07:49
      意大利知名地標“愛情拱門”突然崩塌,永久消失,當地市長:曾有成千上萬的情侶來打卡,旅游業遭“毀滅性打擊”

      意大利知名地標“愛情拱門”突然崩塌,永久消失,當地市長:曾有成千上萬的情侶來打卡,旅游業遭“毀滅性打擊”

      大風新聞
      2026-02-17 19:26:03
      南京一商場晚上突發火災,看電影的觀眾緊急逃生,應急部門:火已撲滅,無人傷亡

      南京一商場晚上突發火災,看電影的觀眾緊急逃生,應急部門:火已撲滅,無人傷亡

      極目新聞
      2026-02-19 12:49:48
      浙江一地通知:即日起全域禁止銷售

      浙江一地通知:即日起全域禁止銷售

      都市快報橙柿互動
      2026-02-19 17:58:37
      后續,江蘇一家人吃飯父親酒后掀桌,兒子透露更多,以后不回家了

      后續,江蘇一家人吃飯父親酒后掀桌,兒子透露更多,以后不回家了

      離離言幾許
      2026-02-18 23:24:35
      第3金還要耐心等待!天公不作美,中國隊冬奧熱門沖金項再次延期

      第3金還要耐心等待!天公不作美,中國隊冬奧熱門沖金項再次延期

      全景體育V
      2026-02-19 10:10:31
      南方大米產量第一,為啥超市里大部分還是東北米?南方米去哪了?

      南方大米產量第一,為啥超市里大部分還是東北米?南方米去哪了?

      天下十三洲獵奇
      2026-02-18 23:53:55
      突發!美國出手封殺多家中國機構

      突發!美國出手封殺多家中國機構

      芯火相承
      2026-02-19 10:02:18
      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      翰飛觀事
      2026-02-16 11:29:39
      林丹在西班牙過年,別墅內景曝光,全家人與朋友除夕吃海鮮大餐

      林丹在西班牙過年,別墅內景曝光,全家人與朋友除夕吃海鮮大餐

      手工制作阿殲
      2026-02-19 11:58:33
      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統遭摧毀

      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統遭摧毀

      軍迷戰情室
      2026-02-18 23:58:09
      2018年,張扣扣向王家復仇,唯獨不殺王自新妻子:她有不死的理由

      2018年,張扣扣向王家復仇,唯獨不殺王自新妻子:她有不死的理由

      米果說識
      2026-02-19 09:32:34
      凌晨發送恐嚇信息?桔子酒店涉事門店:已報警,非員工發送

      凌晨發送恐嚇信息?桔子酒店涉事門店:已報警,非員工發送

      大風新聞
      2026-02-19 09:46:23
      12死!湖北煙花店爆炸:店主身份被扒,大量內幕披露,知情者發聲

      12死!湖北煙花店爆炸:店主身份被扒,大量內幕披露,知情者發聲

      博士觀察
      2026-02-19 00:06:41
      2月17日俄烏最新: 2.5 年來的最大戰果

      2月17日俄烏最新: 2.5 年來的最大戰果

      西樓飲月
      2026-02-17 20:49:47
      湖北12死煙花爆燃:死者身份公布,大量內部照流出,責任人被控制

      湖北12死煙花爆燃:死者身份公布,大量內部照流出,責任人被控制

      博士觀察
      2026-02-19 11:41:09
      尹錫悅庭審細節曝光:被判無期只瞥了一眼法官,離庭時與律師相視一笑!法官闡述為何不判死刑

      尹錫悅庭審細節曝光:被判無期只瞥了一眼法官,離庭時與律師相視一笑!法官闡述為何不判死刑

      紅星新聞
      2026-02-19 17:28:30
      太尷尬了!大年初一,上海網友哭訴稱大門被鄰居貼兩張“大字報”

      太尷尬了!大年初一,上海網友哭訴稱大門被鄰居貼兩張“大字報”

      火山詩話
      2026-02-19 15:05:12
      襄陽宜城煙花店才50多平米,要了12條人命!最害人的,或是防盜網

      襄陽宜城煙花店才50多平米,要了12條人命!最害人的,或是防盜網

      火山詩話
      2026-02-19 13:50:13
      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      涵豆說娛
      2026-01-19 17:21:55
      2026-02-19 18:43:00
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6825文章數 94529關注度
      往期回顧 全部

      科技要聞

      怒燒45億,騰訊字節阿里決戰春節

      頭條要聞

      媒體:高市2.0 日本政局發生了意料之中的變動

      頭條要聞

      媒體:高市2.0 日本政局發生了意料之中的變動

      體育要聞

      中國隊第二金!徐夢桃贏女子空中技巧兩連冠 邵琪銅牌

      娛樂要聞

      明星過年百態!黃曉明等現身三亞

      財經要聞

      面條火腿香菇醬!上市公司這些年請你吃

      汽車要聞

      量產甲醇插混 吉利銀河星耀6甲醇插混版申報圖

      態度原創

      教育
      時尚
      本地
      旅游
      公開課

      教育要聞

      聽懂這5點,下學期教書,哪還有什么不幸福的?

      冬季穿衣不用太復雜!內搭選高領、外套選簡約款,大方又耐看

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      旅游要聞

      “分段式過年”火爆,汕頭領跑全國“特色年味游”熱門目的地

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版