網易首頁 > 網易號 > 正文申請入駐

王興興署名論文!披露宇樹G1人形機器人背后的核心技術

2026-03-06 07:35:54　來源: AI先鋒官

北京舉報

分享至

2026年春晚，宇樹G1人形機器人憑借《武BOT》節目中絲滑的后空翻、武術、街舞等極限動作驚艷全網。

近日，這背后的核心技術論文《OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control》（arXiv:2602.23843）正式發布，宇樹科技創始人王興興親自署名。

論文提到，當前人形機器人控制普遍面臨“動作越多、表現越差”的“泛化屏障”（Generality Barrier）。

而傳統多動作強化學習（RL）易出現梯度干擾，策略趨于“保守平均”，單個動作精準但多動作協同精度暴跌。

同時，仿真與真機存在執行器非線性差異（力矩-速度特性、功率限制），高動態動作下微小誤差會放大為摔倒、硬件損壞等災難。

這導致機器人難以同時掌握后空翻、武術、街舞等高難度極限動作，成為通用人形機器人落地的核心障礙。

對此，論文提出OmniXtreme兩階段訓練框架，通過“先學全、再做實”的思路，徹底打破保真度與擴展性的 trade-off。

第一階段為，流匹配預訓練（Flow-Matching Pretraining）。

摒棄傳統多動作RL，先為每個極限動作訓練“單動作專家策略”，用流匹配生成模型將多個專家策略蒸餾為統一基礎策略，同時配合高容量架構確保覆蓋異構動作，避免梯度干擾，解決“學得多”的問題。

第二階段為，執行器感知后訓練（Actuation-Aware Post-Training）。

凍結預訓練基礎策略，輔以訓練殘差策略（Residual Policy）做微調。同時，引入真實執行器模型、激進域隨機化、機械功率懲罰機制（P=τ·ω），精準適配真機物理約束，解決仿真到現實的“最后一公里”。

其中，重點抑制高動態落地時的瞬態大負載，避免觸發硬件保護，確保動作安全穩定。

經過實測，在宇樹G1人形機器人上，OmniXtreme實現單一策略執行24種高動態極限動作，157次試驗整體成功率91.08%。

其中，后空翻成功率96.36%，為全球頂尖水平。

武術動作成功率93.33%，街舞/霹靂舞為86.36%。

端到端推理延遲<10ms，控制頻率50Hz，完全滿足實時控制需求。

對比傳統方法，當動作集從10個擴展到50個時，傳統RL基線成功率從100%暴跌至73.9%，而OmniXtreme仍穩定在93.3%，展現出極強的擴展性與穩定性。

論文成果首次實現單個策略穩定執行數十種極限動作，為人形機器人從“專用”走向“通用”奠定了核心算法基礎。

而兩階段框架更可大幅提升訓練效率，無需為每個新動作從零開始訓練，加速新技能迭代。

此外，論文將同步開源模型與代碼，這對推動整個人形機器人行業的技術進步應有幫助。

以下為論文全文：

《OmniXtreme：突破高動態人形機器人控制的通用性屏障》

圖1:由我們統一策略Omnixtreme實現的極端全身人形控制。(a)一項定量比較顯示，我們精心挑選的極端運動庫所占據的挑戰性區域遠大于標準的多運動基準(如Unitree-重定向的LAFAN1)。通過實際執行我們的統一策略OMNIXTREME，展現出源自該運動庫的穩健且可在物理上實現的極端行為，包括(b)極端平衡行為(c)快速接觸切換與復雜的支撐轉換、(d)高速運動伴有較大的角速度，以及(e)涵蓋質性上截然不同的運動風格的多樣化全身行為。

摘要

高保真運動追蹤是檢驗通用化人類級運動技能的終極試金石。

然而現有策略常遭遇“通用性瓶頸”：隨著動作庫多樣性擴展，追蹤保真度不可避免地下降——尤其在真實場景中實現高動態動作時。

我們發現這一失敗源于雙重疊加因素：多動作優化的擴展學習瓶頸，以及現實驅動系統中物理可執行性限制。

為突破此困境，我們提出可擴展框架Omnixtreme，將通用運動技能學習與仿真到物理的技能優化解耦。

該方法采用高容量架構的流匹配策略，在無需干擾密集型多動作強化學習優化的情況下擴展表征能力，隨后通過驅動感知優化階段確保在物理硬件上保持穩健性能。

大量實驗表明，Omnixtreme能在多樣化的高難度數據集上保持高保真追蹤。在真實機器人上，統一策略成功執行了多種極端運動，有效打破了高動態人形機器人控制中長期存在的保真度與可擴展性之間的權衡關系。

一、引言

我們最終追求的是具備可擴展性、人類水平全身運動技能的通用型人形機器人。研究這類能力的自然且廣泛應用的方法是高保真運動追蹤技術，該技術要求控制器在保持動態穩定性的同時，能夠精準復現參考動作并應對接觸與干擾。高質量追蹤技術遠不止是美學追求：它能捕捉到支撐位姿操控、表情互動及諸多下游核心人形能力的全身協調性與接觸時機。

近年來，基于學習的運動追蹤技術取得了顯著進展：通過精心設計的目標和強化學習，智能控制器能夠以高精度追蹤個體動作，包括舞蹈、翻滾和武術等高度動態的行為模式。最新研究在開發覆蓋更廣泛行為庫的多動作控制器方面邁出了重要步伐。

然而一個反復出現的規律依然存在：當我們將動作庫擴展到涵蓋多樣化風格、接觸模式和時序方式的更大規模時，運動追蹤質量往往會下降?？刂破鲿兊帽Ｊ厍摇捌接埂?，在最難的動作上卡殼，或對模擬到真實場景轉換中不可避免的小偏差表現出脆弱性。這種退化在高動態動作中尤為明顯，即使微小的追蹤誤差也可能迅速演變成災難性故障。這種長期存在的保真度與可擴展性之間的權衡，實際上限制了人形機器人運動控制所能實現的通用性水平，尤其是在高動態模式下，這表明存在一個根本性的限制，而非孤立的工程問題。

因此，一個核心問題隨之浮現：為何高保真運動追蹤難以規模化，尤其在真實人形機器人上？我們認為，這種困難源于當前模擬到真實訓練流程不同階段出現的兩個疊加障礙。

第一個障礙是即使在模擬環境中也會出現的學習瓶頸。近期多項研究開始探索多動作人形機器人追蹤技術，旨在突破單一動作模仿的局限實現更優的可擴展性。然而現有方法仍受制于表征與優化兩方面的限制。

在表征層面，多數方法依賴相對簡單的策略參數化方式，例如 MLP 行為器。當需要將觀測數據映射到由多樣化行為和接觸模式產生的高度異構動作目標時，隨著數據多樣性的增加，這類參數化方式已被發現存在可擴展性不足的問題。

在優化層面，通過強化學習聯合訓練跨多個動作的統一策略會加劇梯度干擾，常導致保守的平均化處理和對高動態行為的局部失效。這些因素共同作用，使得隨著動作多樣性和難度的增加，追蹤保真度會急劇下降。

第二個障礙是部署階段出現的物理執行瓶頸。即便在仿真環境中實現了高保真度的運動追蹤，將這些行為轉化為物理機器人的執行仍面臨挑戰。在先前的人形機器人學習流程中，訓練階段的驅動約束主要通過關節位置限制和簡單力矩邊界進行建模。

雖然這些簡化方法有助于學習，但在處理高動態運動時卻力不從心——這類運動中系統行為主要受未建模的執行器非線性特性主導，例如扭矩-速度特性、速度相關扭矩損耗，以及再生功率現象等動力學效應，導致執行穩定性快速下降。因此，仿真中看似可擴展的保真度，最終可能無法在真實機器人上實現。

基于上述分析，我們提出名為“ 全極限 ”（Omnixtre- me）的可擴展訓練框架，該框架專門針對兩大技術瓶頸進行優化，旨在通過單一策略實現對多樣化且高動態人形機器人行為的穩健控制。

為突破學習瓶頸，該框架采用流匹配策略，并通過行為克隆技術從動作專家庫中進行專家到統一生成的預訓練。這種設計將表征學習與優化過程解耦，既通過高容量生成策略提升表達能力，又避免了干擾嚴重的多動作強化學習。

為突破物理可執行性瓶頸，OM極致引入了殘差強化學習后訓練優化機制，專門針對真實驅動約束下的執行需求進行優化——這種約束在高動態運動場景中尤為重要。

該階段并非重新學習運動追蹤，而是通過驅動感知建模、優化領域隨機化以及對功率相關效應的顯式懲罰，對預訓練策略進行調整以適應現實驅動約束。這種針對性優化確保了經過縮放的追蹤策略在真實硬件動態條件下仍能保持物理可執行性。

我們通過在日益多樣化和高動態運動庫上的廣泛模擬和真實機器人評估，驗證了Omnixtreme的性能。超越標準多運動在基準測試中，我們精心設計了一組以高速度、頻繁接觸轉換和嚴格時間約束為特征的極端運動場景，并對全極運動系統進行全方位評估。

如圖1所示，該系統在UnitreeG1人形機器人上成功實現了翻滾、特技動作和霹靂舞等多種極限行為，其中微小偏差都可能迅速引發連鎖故障。這些結果共同構成了嚴格的可擴展性壓力測試，有力挑戰了“運動多樣性與難度增加必然導致追蹤精度下降”的普遍認知。

總體而言，我們的貢獻體現在四個方面：

1) 我們提出Omnixtreme ，這是一個可擴展的人形機器人高保真運動追蹤訓練框架，專門解決高動態人形機器人控制中的基本可擴展性挑戰。

2) 我們提出一種基于流匹配的專家到統一生成預訓練階段，使統一策略能夠跨異構和高動態運動進行擴展。

3) 我們提出一種基于運動感知的殘差強化學習后訓練階段，該階段在實際運動約束條件下優化預訓練策略，確保物理可執行性。

4) 我們通過大量模擬和真實實驗表明，omnixtreme技術能夠使單一統一策略穩健執行多樣化和極端運動，解決了傳統保真度與可擴展性之間的權衡問題，尤其適用于高動態運動場景。

二、相關工作

A. 人形機器人全身體控制與通用跟蹤

近期在人形機器人全身控制領域的研究已取得顯著進展，涵蓋舞蹈、跌倒恢復和跑酷等多種技能。然而，如何在大規模多樣化動作庫中實現高保真運動追蹤與可擴展性仍是未解難題。

ASAP和BeyondMim- ic等框架在高質量模仿單個動作片段方面表現優異，但將這些方法擴展到日益龐大的動作集時，優化復雜度會顯著增加。

另一方面，OmniH2O、ExBody2和GMT等基于強化學習的大規模追蹤器雖展現出良好的可擴展性，但在廣泛技能覆蓋下保持精準動作保真度仍具挑戰。

這種矛盾在實踐中常表現為保真度與可擴展性的權衡。為解決該問題，Omnixtreme引入了生成式動作表征與專家到統一優化框架，既實現了可擴展學習，又在高動態運動數據集上保持了強大的追蹤精度。

B. 基于擴散與流動的機器人規劃與控制動作建模

基于擴散與流動的模型在機器人學習領域展現出強大能力，通過迭代優化和隨機采樣技術提升機器人控制與規劃的穩健性與多樣性。早期研究主要聚焦于高層級軌跡規劃或低頻次視覺運動任務，而DiffuseLoco則將該方法應用于高頻次四足機器人控制。

為增強表達能力與穩健性，近期研究如Policy Decorator和ResiP在機械臂機器人上引入殘差策略學習，通過將凍結基礎模型與優化層結合，有效應對長時域裝配中的協變量偏移與精度瓶頸。

然而，鑒于類人機器人與四足機器人及機械臂在技能空間和固有不穩定性方面的顯著差異，當前研究如BeyondMimic仍聚焦于引導式控制接口，而非實現高動態類人機器人運動追蹤所需的可擴展性與高速敏捷性。

與以往研究不同，Omnixtreme提出了一套完整的訓練流程，包含基于DAgg- er的流匹配預訓練和殘差后訓練，突破了低級可擴展性和敏捷性的限制，其運動多樣性與動態性能遠超既往方法。

C. 基于動作感知的敏捷機器人控制

實現敏捷性仍是機器人技術領域的前沿課題。 ACRL通過采用執行器約束強化學習實現高速四足移動，而“ 縮小現實差距”項目則運用電流-扭矩校準與執行器動力學建模實現五指靈巧操作。

盡管其他形態機器人已取得進展，但人形機器人如何學習敏捷且具備執行器感知能力的控制策略仍是未被充分探索的領域。OM極限通過整合物理信息驅動的電機建模與執行器正則化技術，突破了現實硬件限制下人形機器人敏捷性能的邊界，成功填補了這一技術空白。

三、方法論

在本節中，我們提出名為“ 全極化” 的兩階段訓練框架，用于實現可擴展的高保真度人形機器人運動技能學習。

第一階段基于流的可擴展預訓練專注于高保真度動作模仿與表征能力的獲取。具體而言，我們通過流匹配技術，將多種動作專家策略提煉為統一的基礎策略。這一生成式預訓練階段無需依賴易受干擾的多動作聯合強化學習，即可在異構動作間建立共享的運動追蹤先驗。

為彌合仿真與實際執行之間的差距，我們進一步引入基于殘差強化學習的動作感知后訓練階段。該階段不再重新學習運動追蹤，而是通過訓練殘差策略生成校正動作，以補充預訓練的流匹配基礎策略。這一階段在引入更激進的領域隨機化的同時，使整個系統與現實世界的執行約束保持一致。

通過這種針對性優化，剩余策略能夠將預先訓練的跟蹤行為適應于實際的硬件動態特性，從而提升物理執行的可行性和部署的穩健性。

圖.2:全極值系統的概述。(a) 預訓練階段：通過基于DAgger的流匹配技術訓練統一基礎策略，整合來自不同運動追蹤專家的多樣化運動先驗。(b) 后訓練階段：基礎策略保持凍結狀態，同時在嚴格運動約束、廣泛領域隨機化及功率安全正則化條件下優化殘差策略，以彌合仿真與真實環境的差距。(c) 系統部署：整個推理流程為實時模式，且完全在機載設備上執行，從而便于在物理環境中實現穩健且靈活的控制。

A. 可擴展的基于流的策略預訓練

1) 問題表述：在預訓練階段，我們通過基于數據集聚合（DAgger）的蒸餾技術學習流匹配機器人策略。具體而言，我們考慮觀察空間o={p，c，h}，其包含：(i) 機器人本體感覺p，包括關節位置、速度、基座角速度及先前動作；(ii)命令c，由6維軀干方向差異與參考運動的目標關節位置及速度組成；(iii)歷史信息h，涵蓋過往本體感覺狀態。給定參考運動數據集，我們的目標是首先學習專家策略對于每個參考動作，然后將其提煉為基于流的通用策略πθ（a|o）。

2) 專家策略學習：在專家策略訓練中，我們從Unitr- ee重定向的LAFAN1（LAFAN1）數據集、amass、MimicKit以及Reallusion運動庫的組合中抽取參考運動數據集M，涵蓋多樣化行為模式和高動態機動。所有參考運動首先通過GMR重定向至UnitreeG1人形機器人。隨后，我們通過近端策略優化（PPO）在特定運動mk上訓練每個專家策略π(k) ex pert。

3) 流匹配策略學習：我們通過DAgger學習流匹配機器人策略，首先在模擬器中部署當前基于流的策略πθ(a|o) ，并根據參考運動數據集M收集訪問狀態軌跡 {o1 , · · · , oN } 。對于每個訪問狀態o ，我們通過查詢對應專家策略獲取專家動作aexpert ?；诹鞯哪Ｐ碗S后通過優化從噪聲動作中恢復專家動作aexpert：

其中at= (1?t)aexpert+t?是根據流時間步t∈[0, 1]在專家動作aexpert與隨機噪聲?~N(0，I)之間插值得到的帶噪聲動作。該目標函數學習速度場vθ (at，t，o)以預測目標速度u=??aexpert，從而在每個流時間步學習去噪方向。在優化過程中，時間步t從Beta分布t~Beta(α,β)中采樣，以將學習過程聚焦于概率路徑的特定區域，從而增強收斂性和軌跡細化。通過速度場vθ,我們可以通過前向歐拉規則從t=1到t=0對vθ進行積分，從隨機噪聲a1~N(0，I)生成動作a0：

其中D是控制近似精度的積分或去噪步驟數量。通過迭代展開軌跡并使用等式（ 1）以專家動作監督它們，我們將π θ 作為將當前觀察映射到適當動作的通用策略進行學習。完整的訓練過程如圖2(a)所示，并在算法1中詳細說明。

4) 保真隨機化與噪聲策略：為在確保物理系統穩定性的前提下保持高度動態表現力，我們在教師訓練階段和預訓練階段均采用保守的隨機化與噪聲策略（詳見表I）。通過適度引入噪聲水平和領域隨機化，我們有效避免了過度隨機性導致的性能崩盤。這種策略確保智能體能精準捕捉底層物理動力學特征，從而生成具備基礎仿真-真實穩健性及預測確定性的流匹配策略，為實際部署提供必要保障。

B. 動作感知后訓練階段

1) 殘差策略建模：雖然預訓練的流匹配基礎策略提供了穩健且統一的行為基礎，但在面對真實物理環境時會遇到性能差距。為更好地彌補這一差距并實現平滑的模擬到真實遷移，我們提出了一種基于輕量級 MLP 的殘差校正學習的后訓練優化階段。具體而言，我們通過生成優化動作a=aflow + ares并在附錄中詳細說明的PPO機制下，利用累積獎勵對凍結的預訓練策略πθ 進行殘差校正策略π? 學習。

具體而言，殘差行為者與評價者的觀測空間整合了機器人本體感覺與運動指令以及當前基礎動作aflow 。在本體感覺狀態下，殘差策略會觀察先前優化的動作，而流匹配基礎策略則保持對先前基于流的動作的條件依賴。

表I：預訓練與后訓練階段的噪聲、域隨機化及終止閾值配置。此處±x表示[-x x]。

2) 作用感知物理約束建模：為明確考慮現實世界中的作用效應，我們采用包含真實作用感知物理約束和領域隨機化的環境訓練殘差策略，如圖2(b)所示。作用感知物理建模的具體方法如下：

a) 激進的領域隨機化：我們大幅擴展了領域隨機化的范圍，在常見領域隨機化設置（包括初始姿態噪聲、力擾動幅度、角速度等）上最高可增加50% ，具體參數詳見表I 。通過添加表面噪聲和隨機放置垂直臺階來實現地形隨機化。關鍵在于將終止閾值放寬1.5倍（例如將方向誤差從0.8放寬至1.2弧度）。這種放寬使得殘差策略能夠探索并修正那些原本會被提前終止的、存在較大偏差但可恢復的狀態。

b) 動力安全驅動正則化：實際應用中，高度動態的運動可能引發標準訓練流程中未明確調控的瞬態制動負荷。為解決該問題，我們引入對過度負關節機械功率的顯式懲罰機制，以緩解可能觸發過流保護或熱應力的激進電機制動行為。具體而言，我們采用由施加的關節扭矩τ和角速度ω計算得出的瞬時機械功率P=τ · ω作為執行器安全的關鍵策略。當負功率超過預設死區時，系統將施加懲罰以抑制大規模再生制動。

各關節制動事件：

其中Pj , Pdb分別表示關節j的功率和死區閾值。K為歸一化常數。實際應用中，該參數會根據運動場景選擇性地應用于膝關節（例如后空翻動作），因為這些關節在沖擊和恢復階段特別容易承受高制動負荷。

c) 以執行器狀態感知的扭矩-速度約束：模擬與實際運行差異的主要根源在于執行器建模的過度簡化，而標準扭矩限制技術則忽略了由反電動勢和物理功率限制所施加的速度相關約束。這種缺失會導致在高動態動作執行時出現顯著的模擬與現實之間的差距。為彌補這一不足，我們將真實的扭矩-速度操作范圍直接整合至仿真系統中，基于扭矩與角速度的瞬時對齊動態推導扭矩極限：

允許扭矩隨后被定義為關節速度幅值的單調遞減函數：

在施加于關節之前，指令扭矩最終被限制在這一允許范圍內，從而確保模擬器不會采樣到實際執行器物理上無法實現的扭矩指令。

除轉矩-轉速限制外，我們還通過非線性摩擦項對執行器級內部損耗進行了建模扭矩鉗制后應用。

平滑的庫侖分量捕捉了從靜摩擦到動摩擦的轉變，而粘性項則考慮了與速度相關的耗散，并提供了額外的阻尼。參數μ s 、vact和μ d是常數。

總體而言，這一結構化優化階段所生成的控制器同時具備更高的安全性、更強的抗大擾動能力，以及更貼近真實世界執行器動態特性的特性，從而能夠可靠地應用于機器人系統。

C. 真實世界部署

圖2(c)展示了集成化的實際部署流程。在部署階段，我們以骨盆IMU 作為主要姿態參考源，通過正向運動學（FK）計算軀干旋轉。為確保最小控制延遲，整個計算流程——包括基于FK的狀態估計、基礎流匹配策略和殘差策略——均通過TensorRT進行優化和執行。該集成流程在Unitree G1搭載的Orin NX 上實現了約10毫秒的端到端推理延遲。這種優化使機器人能夠在復雜物理環境中以穩定的50Hz頻率執行高質量運動追蹤。

四、實驗

我們通過大量模擬實驗和物理機器人實驗，評估了所提出的全極系統（omnixtreme system）在運動庫多樣性與難度提升時的可擴展性。實驗圍繞以下關鍵問題展開：

Q1：可擴展的高保真跟蹤。與先前的多運動基線方法相比，我們的方法能否在仿真和真實機器人場景中保持高保真跟蹤的規?；瑫r避免因表示和優化挑戰而崩潰？

Q2：Fidelity與可擴展性的權衡（全極化控制器與從頭學習強化學習控制器對比）。隨著運動多樣性和難度的增加，從頭學習多運動強化學習控制器的跟蹤性能會如何下降？我們的方法能在多大程度上拓展可擴展性邊界？

Q3：基于流的控制器（omnixtreme與 MLP 控制器）的容量擴展。增加模型容量是否能提升大規模多運動跟蹤性能？通過流匹配的生成式預訓練是否比傳統MLP運動跟蹤控制器具有更強、更穩定的擴展能力？

Q4：現實世界可執行性與穩健性。過度領域隨機化、動作感知建模與功耗感知安全機制如何單獨及協同影響仿真到現實的遷移效果與實際執行成功率？

Q5：定性全身能力。除標量追蹤指標外，Omnixtreme能否在不同運動風格和動態接觸模式下展現敏捷多變的全身行為？

這些問題共同探討了omnixtreme的可擴展性與穩健性，通過解析生成式預訓練在表征與容量擴展中的作用，以及殘差后訓練在實際可執行性中的作用。

A. 實驗設置

1) 運動庫：我們采用雙層架構設計構建運動庫。首先，我們使用完整的LAFAN1數據集——該數據集在多運動追蹤領域已被廣泛采用，是評估風格與時間多樣性下可擴展性的標準基準。

其次，為了評估并突破極端類人運動的極限，我們從LAFAN1、amass、MimicKit和Reallusion中精選了約60個極具挑戰性的運動。如圖1(a)所示，這些運動展現出顯著更高的動態強度、頻繁的接觸轉換以及嚴格的時序約束。我們將這個精選集統稱為XtremeMotion數據集。

LAFAN1與XtremeMotion共同構建了一個運動庫，該庫既涵蓋標準多運動基準測試，又包含探索保真度、穩健性及實際可執行性極限的極端行為。

2) 基線方法：我們對比了兩類專為多運動跟蹤設計的強基線方法。（a）專家到統一 MLP 蒸餾。這類方法首先針對每個運動（或每個聚類）訓練專家策略，然后將其蒸餾為單一的統一 MLP 跟蹤策略?；诒O督蒸餾，它們受益于相對穩定且直接的優化過程，但受限于 MLP 策略的表征能力。（b）從頭開始的多運動強化學習。這類方法通過跨所有運動的強化學習直接從頭訓練單一的統一跟蹤策略，但隨著運動多樣性和難度的增加，它往往會受到梯度干擾和保守平均處理的影響。

B. 評估指標

該策略通過運動追蹤的模擬部署進行評估，以提取性能指標。主要指標是成功率（Succ），若人形機器人偏離參考運動超過預設閾值或出現不穩定狀態，則判定該回合為失敗。我們還報告了根相對平均關節位置誤差（MPJ- PE）（毫米），以及關節空間速度 (?vel）和加速度 (? acc）的偏差，以此量化運動學精度和物理保真度。

在物理機器人領域，我們采用部署導向的評估指標來衡量性能，包括技能級成功率，以及對高動態行為運動保真度的定性評估。

C. 可擴展高保真跟蹤(Q1)

本節研究在運動庫多樣化和難度提升的背景下，Omni- xtreme是否仍能保持高保真度的人形運動追蹤能力。我們通過匹配模型容量和相同訓練數據，將 OMNIX Treme與專家到統一 MLP 提煉、從頭多運動強化學習等方法進行對比。所有方法均基于同一組合運動庫（LAFAN1+Xtre- meMotion）訓練，并在三個測試集上進行評估：完整運動庫、高動態XtremeMotion子集以及從未見過的運動集（隨機采樣自重定向amass）。

仿真結果。如表II所示，Omnixtreme在所有仿真指標上均持續優于兩種基線方法。當運動難度增加時，Xtrem- eMotion和未見運動場景下的差距顯著擴大，此時基線方法的成功率下降且跟蹤誤差上升。這表明omnixtreme在運動多樣性與難度增加時仍能保持跟蹤保真度，而非因復雜度提升而降低性能。

現實世界應用。我們進一步將OmnixTreme系統部署在Unitree G1人形機器人上，采用XtremeMotion提供的動作數據。為便于展示，動作被歸類為具有共同動態結構和接觸模式的代表性技能類別。若動作在無人工干預或安全觸發終止的情況下完成，則視為成功。如表III所示，在涵蓋24種高動態動作的157次真實世界測試中，OmnixTreme在翻滾、雜技、霹靂舞及武術風格動作等多樣化技能類別中均保持穩定高成功率。這些結果表明，仿真中觀察到的可擴展性優勢可轉化為真實硬件上穩健且物理可執行的行為。

D. Fidelity-可擴展性權衡（Q2）

為探究多運動追蹤中的保真度與可擴展性權衡關系，我們通過在XtremeMotion數據集的擴展運動樣本上進行訓練，逐步擴大運動多樣性，并分析不同訓練范式在相同評估協議下的響應差異。

圖.3:精度-可擴展性權衡。在逐步擴展動作多樣性和難度的同時，追蹤成功率，并在固定前10個動作集上評估所有策略。

圖.4:容量擴展。跟蹤保真度和穩健性隨模型容量變化。Omnixtreme從擴展中獲益更顯著，而傳統 MLP 控制器更早達到飽和。

在這一受控的擴展機制下，從頭開始的多運動強化學習隨著規模擴大表現出更早且更顯著的性能下降，而全極化方法則在更寬泛的擴展范圍內保持更高的跟蹤穩健性。如圖3所示，從頭開始的多運動強化學習呈現出隨著運動多樣性增加的典型性能退化模式：跟蹤精度持續下降，超過臨界規模后穩健性急劇喪失。這些結果表明，觀察到的保真度與擴展性之間的權衡并非固有特性，而是可以通過更具擴展性的訓練范式得到顯著緩解。

E. 容量擴展(Q3)

接下來我們將驗證：增加模型容量是否能進一步提升多運動追蹤性能，以及我們的生成式策略是否比傳統 MLP控制器展現出更強的擴展性。在相同數據和訓練方案下，我們訓練了一系列容量遞增的模型（如寬度/深度、 Transformer隱藏層大小及層數）。圖4展示了追蹤保真度與穩健性隨模型容量的變化趨勢。我們發現容量增加對流匹配策略的追蹤質量提升更為直接，而基于MLP的策略則表現出較弱的增益。這些結果表明，當與可擴展訓練范式結合時，表征擴展性是提升多運動追蹤保真度的實用手段。

F. 真實世界可執行性與穩健性（Q4）

我們通過逐步啟用不同的訓練后機制并評估其在技能層面的實際執行效果，來分析這些機制對模擬到現實轉換的貢獻。表IV匯總了相關消融結果。

表II：多樣化運動場景下的可擴展高保真運動追蹤。OmnixTreme在高動態變化及未見運動場景中，始終比基線方法表現出更低的運動學誤差和更高的成功率。

表III：Unitree G1上Omnixtreme的真實世界評估。我們使用Xtrem- eMotion運動庫中的動作數據，在物理硬件上對Omnixtreme進行評估。

表IV：后訓練機制的消融。不同技能在增量后訓練機制下的真實世界可執行性。無：僅基礎預訓練策略；MC：運動約束；ADR：激進域隨機化；PS：功率安全正則化（過流/再生制動保護）。

√：穩定執行；

△：不穩定或不一致執行；

×：一致故障；

?：主要與功率安全保護相關的故障，如過流或過度再生制動。

綜上所述，不同類型的高動態運動表現出不同的失效模式，而每種以執行為導向的機制都針對現實世界可執行性中的互補特性進行優化。對于翻轉等高沖擊運動，僅需強制執行器扭矩-速度約束即可實現穩定執行，因為遵循電機工作范圍可避免硬件層面的即時違規。像霹靂舞和雜技動作這類接觸密集型技能，僅靠電機約束仍存在穩定性問題，但通過激進的領域隨機化技術可顯著提升對時序敏感型接觸擾動的穩健性。涉及高速緩沖沖擊的動作（如雜技落地）即便采用激進隨機化技術仍具挑戰性，此時功率安全正則化技術至關重要——它能有效緩解因瞬態制動負荷過大及高沖擊接觸時能量吸收不安全導致的故障。這些研究結果共同表明，可靠的現實世界執行能力源于對驅動感知建模、穩健性導向隨機化以及能量感知安全約束的協同作用。

G. 極端運動的定性結果（Q5）

最后，我們提供了定性證據，表明omnixtreme能夠在不同情境下展現出敏捷且多樣的全身技能。

圖.5:定性實驗結果。Omnixtreme系統在真實場景中生成的代表性動作演示，完整呈現了翻滾、雜技、霹靂舞和武術等不同風格與接觸模式下的全身動作。實驗結果表明，該系統在物理硬件上能穩定協調地完成動作，即使在快速接觸轉換和時間敏感階段也能保持精準執行。

除了標量追蹤指標所能捕捉的運動風格和接觸模式外，我們還展示了XtremeMotion中跨越不同風格動作的代表性演示。圖5表明，Omnixtreme能夠通過全身協調動作追蹤質性差異顯著的運動，補充Q1-Q4階段的定量指標，并展示了可擴展生成式預訓練與動作感知優化技術所能實現的行為多樣性。更多定性分析結果（含視頻演示）請參閱補充材料。

五、結論

我們推出了名為“全極限” 的兩階段框架，專為高動態場景下的可擴展高保真人形機器人運動追蹤設計。該框架通過將專家級預訓練與統一的流式預訓練相結合，并引入基于運動感知的殘差強化學習，有效解決了大規模訓練中的學習瓶頸和從仿真到實際部署時的物理可執行性難題。大量仿真結果表明，相較于其他基準方法，全極限在更廣泛的運動多樣性場景中仍能保持顯著的追蹤保真度。Re- alRobot實驗進一步驗證，該框架僅需單一統一策略即可可靠執行多種極端行為，成功突破了傳統保真度與可擴展性之間的權衡困境。

在未來的科研中，如何平衡數據多樣性和模型容量，將成為提升全身仿生人形機器人運動技能泛化能力的關鍵。隨著基于學習的控制器向更動態、硬件受限的運行模式發展，動作感知建模已成為學習流程中的核心環節。通過整合電流、功率、扭矩和速度等高精度的驅動特性約束，研究人員能夠進一步彌合仿真與現實的差距，確保所學行為能無縫轉化為物理仿生機器人。

掃碼邀請進群，一起玩AI。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.