大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技
文丨譚梓馨
大規(guī)模并行仿真已將機(jī)器人強(qiáng)化學(xué)習(xí)(RL)的訓(xùn)練時(shí)間從數(shù)天縮短至數(shù)分鐘。
然而,由于高維性、域隨機(jī)化等因素帶來的挑戰(zhàn),在人形機(jī)器人控制方面實(shí)現(xiàn)快速且可靠的仿真實(shí)境遷移(Sim2Real)仍面臨困難。

近日,Amazon FAR團(tuán)隊(duì)提出一種基于離策略強(qiáng)化學(xué)習(xí)算法(即FastSAC與 FastTD3)的簡潔實(shí)用方案,僅需單塊RTX 4090 GPU,即可在15分鐘內(nèi)快速訓(xùn)練出人形機(jī)器人移動控制策略。
研究人員在宇樹G1(Unitree G1)和加速進(jìn)化T1(Booster T1)機(jī)器人上驗(yàn)證了該方案的有效性。在強(qiáng)域隨機(jī)化條件下,如動力學(xué)隨機(jī)化、崎嶇地形、推力擾動等,可實(shí)現(xiàn)端到端的人形機(jī)器人控制策略快速學(xué)習(xí),同時(shí)也支持全身人體運(yùn)動跟蹤策略的快速訓(xùn)練,該方案開源發(fā)布在Holosoma代碼庫中。
極簡策略,給訓(xùn)練提提速
仿真實(shí)境遷移(Sim2Real)開發(fā)本質(zhì)上是一個(gè)迭代過程:在仿真環(huán)境中訓(xùn)練策略并部署到硬件后,會暴露出未建模動力學(xué)、感知誤差等域差異問題。
隨后需通過改進(jìn)仿真環(huán)境修正這些差異,這就要求重新訓(xùn)練整個(gè)流程,由于這類迭代需持續(xù)至策略達(dá)到可靠水平,因此快速仿真成為保障迭代可行性的關(guān)鍵前提。
盡管現(xiàn)代并行仿真器具備高效特性,但這些迭代周期在實(shí)際應(yīng)用中仍存在較高成本,尤其適用于人形機(jī)器人等高維系統(tǒng)時(shí),而想要實(shí)現(xiàn)策略向真實(shí)世界的魯棒遷移,訓(xùn)練時(shí)間又要重回?cái)?shù)小時(shí)級別。
因此,盡管并行仿真在原始吞吐量上實(shí)現(xiàn)了顯著提升,但人形機(jī)器人領(lǐng)域控制實(shí)現(xiàn)快速、可靠的仿真實(shí)境遷移迭代仍是一項(xiàng)挑戰(zhàn)。
![]()
這項(xiàng)研究提出的FastSAC and FastTD3方案,將人形機(jī)器人仿真實(shí)境遷移的迭代時(shí)間重新縮短至分鐘級。
FastSACFastTD3是流行的離策略強(qiáng)化學(xué)習(xí)算法SAC和TD3的高性能變體,針對大規(guī)模并行仿真訓(xùn)練進(jìn)行了優(yōu)化。
該方案采用大規(guī)模并行仿真對FastSAC與FastTD3智能體進(jìn)行訓(xùn)練。研究發(fā)現(xiàn),增加并行環(huán)境數(shù)量的效果在具有挑戰(zhàn)性的全身運(yùn)動跟蹤任務(wù)中尤為顯著,此外,在每個(gè)仿真步驟中執(zhí)行更多梯度更新步驟通常能加快訓(xùn)練收斂速度。
![]()
訓(xùn)練SAC或TD3等離策略強(qiáng)化學(xué)習(xí)算法時(shí),一項(xiàng)核心挑戰(zhàn)是為其雙曲正切(Tanh)策略設(shè)置合理的動作邊界,研究人員提出一種簡潔技術(shù):在使用比例-微分(PD)控制器時(shí),基于機(jī)器人的關(guān)節(jié)限位來設(shè)定動作邊界。
他們計(jì)算出每個(gè)關(guān)節(jié)的限位與默認(rèn)位置之間的差值,并將該差值作為對應(yīng)關(guān)節(jié)的動作邊界,實(shí)驗(yàn)表明,該方法可有效降低FastSAC與FastTD3訓(xùn)練過程中動作邊界的調(diào)參需求。
人形機(jī)器人移動控制與全身控制的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì),傳統(tǒng)上依賴復(fù)雜的獎(jiǎng)勵(lì)塑形技術(shù),通常包含20余項(xiàng)獎(jiǎng)勵(lì)項(xiàng),這項(xiàng)研究證實(shí):通過大幅簡化的目標(biāo)函數(shù)(不足10項(xiàng)獎(jiǎng)勵(lì)項(xiàng)),即可讓機(jī)器人產(chǎn)生魯棒且自然的行為。
![]()
具體而言,該方案遵循極簡獎(jiǎng)勵(lì)設(shè)計(jì)理念——僅在必要時(shí)添加獎(jiǎng)勵(lì)項(xiàng),并力求在不同算法與機(jī)器人之間保持近乎一致的獎(jiǎng)勵(lì)集合,設(shè)計(jì)目標(biāo)并非強(qiáng)制機(jī)器人遵循特定運(yùn)動模式,而是在保留行為多樣性的前提下,為魯棒移動控制與全身控制提供足夠的約束結(jié)構(gòu)。
![]()
更少的獎(jiǎng)勵(lì)項(xiàng)還能簡化超參數(shù)調(diào)優(yōu)過程,支持快速遍歷超參數(shù)空間,這對于仿真實(shí)境遷移的迭代效率至關(guān)重要。
而針對全身運(yùn)動跟蹤任務(wù),研究人員還發(fā)現(xiàn),以速度推力形式引入外部擾動,可進(jìn)一步提升仿真實(shí)境遷移的魯棒性。
時(shí)間雖短,但效果很好
研究人員在單塊RTX 4090 GPU上,僅用15分鐘便完成了端到端的完整人形機(jī)器人移動控制策略訓(xùn)練——訓(xùn)練過程涵蓋動力學(xué)隨機(jī)化、崎嶇地形、推力擾動等強(qiáng)域隨機(jī)化條件,并融入自動動作頻率學(xué)習(xí)機(jī)制。
來看看實(shí)訓(xùn)效果:

此外,該離策略強(qiáng)化學(xué)習(xí)方案具備優(yōu)異的可擴(kuò)展性,能夠顯著加速全身運(yùn)動跟蹤策略的訓(xùn)練——在4塊L40s GPU、16384個(gè)并行環(huán)境的配置下,F(xiàn)astSAC與FastTD3算法在相同實(shí)驗(yàn)條件下,學(xué)習(xí)完成完整舞蹈動作序列的速度也顯著快于PPO算法。
而且,雖然只接受了15分鐘的訓(xùn)練,但機(jī)器人已能穩(wěn)定地站立和行走,并且能夠抵抗推力擾動。

FastSAC與FastTD3同樣能夠快速訓(xùn)練宇樹G1人形機(jī)器人實(shí)現(xiàn)人體運(yùn)動跟蹤,包括持續(xù)時(shí)間超過2分鐘的長序列舞蹈動作,其性能效果與主流的PPO算法相當(dāng)或更優(yōu)。

亞馬遜發(fā)力機(jī)器人
值得關(guān)注的是,亞馬遜FAR團(tuán)隊(duì)同步開源了Holosoma,這是一個(gè)綜合軟件框架,旨在簡化訓(xùn)練和部署人形機(jī)器人的復(fù)雜流程。
Holosoma源自希臘語,意為“全身”,通過在單個(gè)訓(xùn)練代碼庫中支持多個(gè)仿真后端來解決各種仿真環(huán)境之間的脫節(jié),以及“后端”碎片化等問題。
近期報(bào)道顯示,亞馬遜的內(nèi)部目標(biāo)是在未來幾年內(nèi)實(shí)現(xiàn)75%的運(yùn)營自動化,在2033年前可能會減少雇傭超過60萬名人類員工,同時(shí)還能將運(yùn)營效率翻一番,要實(shí)現(xiàn)這一目標(biāo),就需要能夠適應(yīng)非結(jié)構(gòu)化環(huán)境并操作各種物體的機(jī)器人——而這些問題是傳統(tǒng)的、硬編碼的自動化方式無法解決的。
![]()
FAR團(tuán)隊(duì)目前匯聚了不少核心華人學(xué)者,Rocky Duan目前為FAR研究負(fù)責(zé)人,此外還匯聚了Peter Chen、Tianhao Zhang、Liang-Chieh Chen、Ziqi Lu等頂尖華人研究員。
FAR團(tuán)隊(duì)認(rèn)為,未來將離策略強(qiáng)化學(xué)習(xí)與人形機(jī)器人學(xué)習(xí)領(lǐng)域的最新進(jìn)展融入該方案,有望進(jìn)一步推動該領(lǐng)域的技術(shù)前沿。
GPU 訓(xùn)練特惠!
H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開支30%以上!
掃碼了解詳情?
點(diǎn)「贊」的人都變好看了哦!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.