<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      ICLR 2026 通研院提出人形機器人預(yù)訓(xùn)練與真機微調(diào)新范式

      0
      分享至



      目前,人形機器人已經(jīng)能在現(xiàn)實中跳舞、奔跑、甚至完成后空翻。但接下來更關(guān)鍵的問題是:這些系統(tǒng)能否在部署之后持續(xù)地進行強化學(xué)習(xí) —— 在真實世界的反饋中變得更穩(wěn)定、更可靠,并在分布不斷變化的新環(huán)境里持續(xù)適應(yīng)與改進?

      目前主流仍然是大量域隨機化的 Sim2Real 路線,“仿真里練到很強,上真機直接用”,一旦部署,策略網(wǎng)絡(luò)往往就被凍結(jié),真實世界大量未知的變化包括摩擦、載荷、溫度、設(shè)備老化等都可能讓機器人表現(xiàn)打折,系統(tǒng)通常只能回到仿真里重新調(diào)參或重訓(xùn);而想在真機上再學(xué)習(xí),又會面臨兩道門卡:安全(隨機探索可能摔倒、損壞)和數(shù)據(jù)(真機交互昂貴、速度慢、次數(shù)有限),這使得機器人缺少真正意義上持續(xù)學(xué)習(xí)的能力。

      來自北京通用人工智能研究院西安電子科技大學(xué)的研究團隊提出的LIFT給出了一條更現(xiàn)實的路徑:先用離策略(Off-policy)強化學(xué)習(xí)算法SAC(Soft Actor-Critic)在仿真中進行大規(guī)模預(yù)訓(xùn)練,充分利用數(shù)據(jù)復(fù)用帶來的樣本效率;再在預(yù)訓(xùn)練數(shù)據(jù)之上學(xué)習(xí)一個物理信息增強(Physics-informed)的世界模型

      到了真實世界,機器人主要執(zhí)行確定性更可控的動作來采集數(shù)據(jù)與微調(diào),把 “試錯” 和 “探索” 盡可能放進世界模型里發(fā)生,從而在保證安全的前提下,用有限的真機交互下實現(xiàn)更快的微調(diào)與提升,繞開部分 sim2real 的硬瓶頸。

      論文的第一作者黃維東是北京通用人工智能研究院的研究工程師,研究方向為強化學(xué)習(xí)和世界模型等,研究目標(biāo)是構(gòu)建在復(fù)雜環(huán)境中可高效持續(xù)學(xué)習(xí)的智能體,通訊作者為北京通用人工智能研究院的研究員張精文。



      • 論文標(biāo)題:Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control
      • 論文主頁:https://lift-humanoid.github.io/
      • 論文鏈接:https://arxiv.org/abs/2601.21363
      • 代碼鏈接:https://github.com/bigai-ai/LIFT-humanoid

      背景與動機:

      人形機器人真機強化學(xué)習(xí)的不安全性

      目前機器人界廣泛依賴在策略(On-policy)算法 PPO (Proximal Policy Optimization)進行預(yù)訓(xùn)練。PPO 雖然在仿真中有較快的(Wall-time)收斂性能,但由于不能有效復(fù)用舊數(shù)據(jù),并且依賴隨機探索,這使其在真實人形機器人上做后續(xù)微調(diào)或持續(xù)學(xué)習(xí)幾乎不可行:既不安全,也不經(jīng)濟。

      傳統(tǒng)強化學(xué)習(xí)中,有兩種有潛力的方案:

      • 離策略 RL(Off-policy RL)(如 SAC):能復(fù)用舊數(shù)據(jù),提高樣本效率;
      • 基于世界模型的 RL(Model-based RL)(如 MBPO/ Dreamer):用模型生成數(shù)據(jù)減少真實交互。

      但作者發(fā)現(xiàn)把這些方法直接搬到人形機器人的預(yù)訓(xùn)練和微調(diào)上會遇到新的瓶頸:

      1.確定性數(shù)據(jù)采集 + 數(shù)據(jù)多樣性不足會讓常規(guī) off-policy /model-based 的訓(xùn)練變得不穩(wěn)定或極慢;

      2.世界模型誤差在人形高維接觸動力學(xué)下更容易積累,導(dǎo)致生成的數(shù)據(jù)質(zhì)量較差,難以被策略利用;

      3. 若像 MBPO 或 Dreamer 那樣 “邊與環(huán)境交互邊訓(xùn)練世界模型和策略,在數(shù)千并行仿真下 wall-time 代價不可接受。

      因此核心問題是:能否既不犧牲大規(guī)模預(yù)訓(xùn)練速度,又能讓微調(diào)階段足夠樣本高效、并且安全可控?

      LIFT:大規(guī)模預(yù)訓(xùn)練與高效微調(diào)



      圖 1. LIFT 框架圖

      為了解決上述問題,作者提出了 LIFT (Large-Scale PretraIning and Efficient FineTuning) 框架(如圖 1 所示)。LIFT 的框架的設(shè)計基于以下三個核心洞察:

      洞察一:SAC 比 PPO 在數(shù)據(jù)量和數(shù)據(jù)多樣性受限時更具優(yōu)勢。

      先前的方法(如 SSRL)已經(jīng)證明使用 SAC 在世界模型中探索和學(xué)習(xí),可以在真實世界從頭開始訓(xùn)練一個四足機器人完成行走任務(wù)。一種自然的做法是將 SSRL 中的 SAC 替換成 PPO,因為 PPO 具有大量并行訓(xùn)練的基礎(chǔ)設(shè)施。

      然而,作者發(fā)現(xiàn),SAC 相比 PPO 具有兩個優(yōu)勢:它的離策略的特性使得它在數(shù)據(jù)量和數(shù)據(jù)多樣性不足時,樣本效率仍然很高;它的與狀態(tài)有關(guān)的隨機策略能夠促進其在世界模型中的探索,生成更多樣和更有效的訓(xùn)練數(shù)據(jù)。因此, 作者后續(xù)圍繞 SAC 打造合適的預(yù)訓(xùn)練和微調(diào)框架。

      洞察二:經(jīng)過 SAC 大規(guī)模預(yù)訓(xùn)練的策略能在真實世界零樣本部署。

      作者使用 Jax 實現(xiàn)了 SAC 并使用了 Optuna 框架對 SAC 的超參數(shù)進行了系統(tǒng)性地搜索。在 Booster T1 的行走預(yù)訓(xùn)練任務(wù)上,優(yōu)化后的 SAC 收斂時間能從原先的 7 個小時下降到半小時以內(nèi)。

      在固定其他超參數(shù)不變后,該研究發(fā)現(xiàn)提升 UTD,Batch Size,Replay Buffer Size 均能降低收斂所需的樣本數(shù)量,并且無需使用額外復(fù)雜的技巧(如 ensemble/dropout critic)就能得到一個在真機可零樣本部署的基礎(chǔ)策略,該策略可作為后續(xù)持續(xù)學(xué)習(xí)的穩(wěn)定起點。同時,可把預(yù)訓(xùn)練時的 Replay Buffer 存盤,再離線訓(xùn)練世界模型,避免拖慢大規(guī)模并行預(yù)訓(xùn)練的速度;

      洞察三:物理信息增強的世界模型能提升模型預(yù)測性能和策略微調(diào)性能。

      作者將 Ensemble 網(wǎng)絡(luò)與人形機器人動力學(xué)模型(公式 2)結(jié)合以提升世界模型的預(yù)測性能:



      Ensemble 網(wǎng)絡(luò)只需要輸出接觸力與預(yù)測的不確定性(方程 3)就可以通過方程(2)計算出加速度,然后積分出下一個時刻的狀態(tài):



      作者修正了 SSRL 中的機器人特權(quán)狀態(tài)空間到廣義狀態(tài)空間的映射關(guān)系,并引入構(gòu)建人形機器人動力學(xué)所需的狀態(tài)(如身體的高度)到特權(quán)狀態(tài)空間中,使得世界模型能準(zhǔn)確預(yù)測下一個時刻的人形機器人狀態(tài)。

      在真實環(huán)境微調(diào)時,該方法只需要用:確定性動作(action mean)在真實環(huán)境采集一小段數(shù)據(jù);用新數(shù)據(jù)微調(diào)世界模型;用SAC 隨機策略在世界模型里探索生成合成軌跡,再用這些合成軌跡更新 actor-critic;更新后的策略再回到真實環(huán)境,進入下一輪迭代。這就把 “探索的風(fēng)險” 盡可能留在世界模型里,實現(xiàn)安全且高效率的持續(xù)學(xué)習(xí)。

      實驗結(jié)果

      作者在兩款人形平臺Booster T1Unitree G1上進行了預(yù)訓(xùn)練和微調(diào)實驗,對比基線包括PPO、SAC 等。相比于基線方法,LIFT 展現(xiàn)了顯著的優(yōu)勢:

      1.策略預(yù)訓(xùn)練的收斂時間:在 MuJoCo Playground 的人形機器人任務(wù)上,相同運行時間內(nèi),LIFT 的 預(yù)訓(xùn)練回報與 PPO、FastTD3 相當(dāng)或更高,這說明該框架沒有使得策略預(yù)訓(xùn)練的時間變長。如圖 2 所示,策略可以直接零樣本部署到真機,作為后續(xù)微調(diào)的初始化策略。



      圖 2. 真機零樣本部署

      2.樣本效率:作者將預(yù)訓(xùn)練策略遷移到 Brax 仿真器進行微調(diào),并設(shè)計了三種場景:

      • 分布內(nèi)(In-Distribution):目標(biāo)速度落在預(yù)訓(xùn)練范圍內(nèi);
      • 長尾分布(Long-Tail):預(yù)訓(xùn)練中很少出現(xiàn)的目標(biāo)速度;
      • 分布外(Out-of-Distribution):目標(biāo)速度超出預(yù)訓(xùn)練范圍。

      如圖 3 所示,LIFT 在三類場景中均能在 4×10?的環(huán)境樣本數(shù)量級下收斂(約為真實世界的 800 秒)并準(zhǔn)確跟蹤目標(biāo)速度



      圖 3. 在 Brax 中微調(diào)的訓(xùn)練曲線圖

      微調(diào)效果如下所示, Booster T1 在微調(diào)前無法準(zhǔn)確跟蹤預(yù)訓(xùn)練時未見過的目標(biāo)速度(1.5 m/s 的速度向前行走),微調(diào)后的策略能準(zhǔn)確追蹤該目標(biāo),并且微調(diào)后步態(tài)更平順、身體擺動更小、速度偏差顯著降低。

      Booster T1 預(yù)訓(xùn)練策略的效果





      在 Booster T1 微調(diào)后策略的效果

      圖4. 在Brax中微調(diào)前后的效果對比圖

      作者進一步在 Booster T1 真機上進行了微調(diào)實驗:以一個仿真預(yù)訓(xùn)練后遷移到真機失敗的預(yù)訓(xùn)練策略為起點,LIFT 通過多輪迭代,僅用約 80–590 秒的真實數(shù)據(jù),就能逐步修正策略的不穩(wěn)定行為(如圖 5 所示)。



      圖 5. 在 Booster T1 真機上微調(diào)的過程

      在消融實驗中(圖 6),作者發(fā)現(xiàn)去掉世界模型預(yù)訓(xùn)練算法仍能收斂,但收斂速度明顯更慢;而完全去除預(yù)訓(xùn)練則容易陷入局部最優(yōu)。



      圖 6. 預(yù)訓(xùn)練的消融實驗

      而另外一項消融實驗(圖 7)表明使用純 ensemble 網(wǎng)絡(luò)構(gòu)建的世界模型更容易給出物理上不合理的預(yù)測(如異常的身體高度),導(dǎo)致 critic loss 爆炸并阻礙策略提升。相比之下,LIFT 提供了更強的歸納偏置,在有限數(shù)據(jù)下表現(xiàn)更穩(wěn)健。



      圖 7. 物理信息增強的世界模型消融實驗

      此外,作者也將同一預(yù)訓(xùn)練框架拓展到 Unitree G1 的全身跟蹤類任務(wù)。











      圖 8. 全身跟蹤的預(yù)訓(xùn)練效果

      結(jié)語

      如果把在真實世界的機器人上擴展強化學(xué)習(xí)當(dāng)成一條通向通用人工智能的路徑,那么關(guān)鍵不在于機器人某一次演示能跑多酷,而在于:我們能否把機器人的學(xué)習(xí)過程在真實世界閉環(huán),即構(gòu)建一個可持續(xù)、可擴展、自動化的學(xué)習(xí)系統(tǒng)。

      當(dāng)前的結(jié)果說明,用更可控的真實數(shù)據(jù)采集,把高風(fēng)險探索盡量轉(zhuǎn)移到世界模型里,是讓強化學(xué)習(xí)在真實人形機器人上變得可行的一種方向;但要把它 “規(guī)模化”,仍然有幾類瓶頸需要被解決。

      一是觀測與狀態(tài)估計。如果關(guān)鍵物理量(例如機器人基座高度、速度)仍依賴外部動捕或存在累積漂移,那么系統(tǒng)就很難脫離人工與場地約束,也難以在開放環(huán)境中長期運行。

      二是安全與重置機制。即便采取確定性執(zhí)行,依然有可能因為策略誤差與建模誤差導(dǎo)致策略失控。需要設(shè)計更自動化的安全保護機制 —— 包括不確定性驅(qū)動的保護、恢復(fù)策略。

      三是系統(tǒng)吞吐量。需要設(shè)計異步的數(shù)據(jù)采集與強化學(xué)習(xí)訓(xùn)練系統(tǒng),保證策略推理時也在進行持續(xù)學(xué)習(xí)。當(dāng)這些要素逐步到位時,強化學(xué)習(xí)才能在真實世界發(fā)揮重要作用。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      克林頓不是男人!要用雪茄助興?萊溫斯基:他把我當(dāng)成“自助餐”

      克林頓不是男人!要用雪茄助興?萊溫斯基:他把我當(dāng)成“自助餐”

      老蝣說體育
      2026-01-05 14:59:04
      華為Pura X2成全球首臺“闊大折”:升級7.69英寸內(nèi)屏+麒麟9030芯片

      華為Pura X2成全球首臺“闊大折”:升級7.69英寸內(nèi)屏+麒麟9030芯片

      快科技
      2026-02-09 09:06:06
      中國金花WTA1000多哈站開門紅來了!

      中國金花WTA1000多哈站開門紅來了!

      呂彍極限手工
      2026-02-09 11:25:47
      李根:上海四外援都是斷檔級存在,他們的決賽對手可能是山西

      李根:上海四外援都是斷檔級存在,他們的決賽對手可能是山西

      懂球帝
      2026-02-08 23:32:21
      上海炒股大賽冠軍的箴言:如果手里只有10萬,不妨死磕"七大口訣"

      上海炒股大賽冠軍的箴言:如果手里只有10萬,不妨死磕"七大口訣"

      一方聊市
      2026-01-19 13:13:48
      英超積分榜:阿森納仍6分領(lǐng)跑,利物浦已落后前五4分

      英超積分榜:阿森納仍6分領(lǐng)跑,利物浦已落后前五4分

      懂球帝
      2026-02-09 03:17:10
      不要小瞧了日本,一旦中日開戰(zhàn),日本要對中國進行“三路打擊”

      不要小瞧了日本,一旦中日開戰(zhàn),日本要對中國進行“三路打擊”

      安安說
      2026-01-21 09:50:42
      蘇翊鳴感謝父母托舉:很幸運我有世界上最好的父母

      蘇翊鳴感謝父母托舉:很幸運我有世界上最好的父母

      米修體育
      2026-02-08 19:33:18
      葉劍英的最后一任妻子,21歲時嫁給51歲的葉帥,現(xiàn)年96歲身體硬朗

      葉劍英的最后一任妻子,21歲時嫁給51歲的葉帥,現(xiàn)年96歲身體硬朗

      雍親王府
      2026-01-24 06:00:03
      韶關(guān)市學(xué)生考試成績用星星顯示,家長對著成績單“數(shù)星星”,教育局工作人員:星星顆數(shù)越多,代表成績越好

      韶關(guān)市學(xué)生考試成績用星星顯示,家長對著成績單“數(shù)星星”,教育局工作人員:星星顆數(shù)越多,代表成績越好

      極目新聞
      2026-02-06 19:39:34
      日本全面?zhèn)鋺?zhàn),如果中日開戰(zhàn),對你我普通人有哪些影響?

      日本全面?zhèn)鋺?zhàn),如果中日開戰(zhàn),對你我普通人有哪些影響?

      子午線
      2026-02-06 14:51:43
      2歲的兒媳婦自己找上門!驚呆了!生活里那些驚人的巧合

      2歲的兒媳婦自己找上門!驚呆了!生活里那些驚人的巧合

      另子維愛讀史
      2026-02-05 23:23:06
      特朗普簽令:加征25%額外關(guān)稅!

      特朗普簽令:加征25%額外關(guān)稅!

      中國經(jīng)濟網(wǎng)
      2026-02-09 12:05:09
      瑙魯總統(tǒng)在廣東訪親過年

      瑙魯總統(tǒng)在廣東訪親過年

      揚子晚報
      2026-02-09 11:13:46
      救救美國的中產(chǎn)吧,他們都快要餓死了!

      救救美國的中產(chǎn)吧,他們都快要餓死了!

      走讀新生
      2026-01-27 21:49:52
      印度前陸軍參謀長爆大瓜!加勒萬河谷的真相,莫迪瞞了全世界6年

      印度前陸軍參謀長爆大瓜!加勒萬河谷的真相,莫迪瞞了全世界6年

      歷史小破站
      2026-02-08 07:00:08
      17歲高中生肝癌晚期,從不喝酒,醫(yī)生詢問后明白:常拿1物當(dāng)夜宵

      17歲高中生肝癌晚期,從不喝酒,醫(yī)生詢問后明白:常拿1物當(dāng)夜宵

      九哥聊軍事
      2026-02-08 22:40:30
      寶玉和襲人同房多次,為何一直都沒懷孕?黛玉一句調(diào)侃道出真相

      寶玉和襲人同房多次,為何一直都沒懷孕?黛玉一句調(diào)侃道出真相

      談史論天地
      2026-02-06 17:30:03
      國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

      國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

      比利
      2026-01-23 12:41:53
      很多人都是智力低下,只不過生活可以自理,所以一直沒有被發(fā)現(xiàn)

      很多人都是智力低下,只不過生活可以自理,所以一直沒有被發(fā)現(xiàn)

      夜深愛雜談
      2026-01-11 19:20:55
      2026-02-09 14:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12275文章數(shù) 142564關(guān)注度
      往期回顧 全部

      科技要聞

      熱血漸涼:被耗盡的小米SU7 Ultra

      頭條要聞

      文玩假拍騙局瞄準(zhǔn)"賣家":3500元淘來的瓷瓶估價300萬

      頭條要聞

      文玩假拍騙局瞄準(zhǔn)"賣家":3500元淘來的瓷瓶估價300萬

      體育要聞

      創(chuàng)中國冬奧最佳戰(zhàn)績!19歲速滑新星含淚向天拉勾

      娛樂要聞

      李亞鵬暫停直播:將投入嫣然醫(yī)院工作

      財經(jīng)要聞

      文玩假拍騙局調(diào)查:3500元瓷瓶估值300萬

      汽車要聞

      長安將搭鈉電池 好比汽車要裝柴油機?

      態(tài)度原創(chuàng)

      教育
      時尚
      家居
      旅游
      數(shù)碼

      教育要聞

      湖北省實驗五大學(xué)科競賽2025年度大盤點!

      2026最流行的5種發(fā)型,太適合過年了!

      家居要聞

      山院煥新 雅聚悅親朋

      旅游要聞

      【場面】MR沉浸新體驗:讓鐵佛寺與大足石刻“搬進”上海書城

      數(shù)碼要聞

      女友生氣怒砸RTX 3080 Ti!PCB嚴重變形彎曲:搬板成功復(fù)活

      無障礙瀏覽 進入關(guān)懷版