<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      王興興發論文了!宇樹、通研院聯手,教機器人“托馬斯全旋”

      0
      分享至


      智東西
      作者 陳駿達
      編輯 李水青

      機器人前瞻3月3日報道,今天,北京通用人工智能研究院(BIGAI)、宇樹、上海交通大學和中國科技大學等機構聯合發布一項最新開源研究成果,該成果有望給人形機器人學習復雜運動的方式帶來明顯提效,且不必在動作保真度與可擴展性之間做艱難權衡。

      該研究提出了一種名為OMNIXTREME的新框架,成功讓一個機器人學會執行包括后空翻、托馬斯全旋、武術踢擊在內的數十種高動態“極限運動”,并在宇樹G1機器人上實現了真實世界的高成功率部署。

      值得一提的是,同型號的宇樹機器人剛剛憑借在2026年春晚舞臺上絲滑的后空翻、側踢、跳馬、耍雙節棍乃至打醉拳等一系列武術動作而爆火出圈,不知道背后有沒有OMNIXTREME框架的功勞。

      ▲真機部署視頻(圖源:項目官網)

      長期以來,讓機器人像人類一樣靈活運動,是機器人學領域的核心追求。然而,一個根深蒂固的難題始終困擾著研究者:“保真度-可擴展性權衡”。簡單來說,讓機器人模仿單個高難度動作(如一個后空翻)已能做到非常精準;但一旦試圖讓一個機器人學會幾十個風格迥異、動態復雜的動作,其學習效果就會大打折扣——控制器變得保守、平庸,在最具挑戰性的動作上頻頻失敗。

      其實,在更早之前,宇樹就已經關注到這一問題。其創始人兼CEO王興興曾在2025年世界機器人大會上談道:目前機器人跳跳舞、打格斗效果已經不錯,但面臨一個關鍵問題——“機器人強化學習的Scaling Law做得非常不好”。比如訓練機器人做新動作、跳新舞蹈,每次都要從頭開始。理論上,每次RL訓練的速度應當越來越快,學習新技能的效果也應當越來越好,但行業內目前還沒人能真正實現這一點。

      針對上述挑戰,OMNIXTREME研究團隊提出了兩階段訓練框架。實驗結果表明,OMNIXTREME在包含LAFAN1和自建XtremeMotion極限運動庫的綜合測試中,追蹤保真度遠超現有基線方法。


      ▲OMNIXTREME部署成功率

      在真實的宇樹G1機器人上,OMNIXTREME讓機器人在單一策略完成了24種高動態運動,157次試驗的整體成功率高達91.08%,其中后空翻等動作成功率超過96%。

      王興興是這篇論文的署名作者之一,位列倒數第三位,按照學術圈慣例,這或許意味著他在這項研究中扮演了指導者角色。該論文的共同通訊作者、北京通用人工智能研究院具身機器人中心主任黃思遠(Siyuan Huang)在社交媒體上透露,這是他們首次與王興興合作發表論文,這是一次頗有啟發性的經歷。


      ▲北京通用人工智能研究院具身機器人中心主任黃思遠發布推文宣傳該研究

      目前這篇論文所涉及的模型檢查點和代碼已經開源發布,研究團隊還在項目官網提供了真機演示的視頻。流匹配基礎策略訓練與推理代碼、剩余后訓練和推理代碼以及C++真實部署代碼未來也可能會開源。

      論文地址:

      https://arxiv.org/abs/2602.23843

      項目地址:

      https://extreme-humanoid.github.io

      項目代碼:

      https://github.com/Perkins729/OmniXtreme

      一、機器人可擴展運動能力兩大挑戰:仿真學習瓶頸與物理可執行性瓶頸

      OMNIXTREME研究團隊認為,讓機器人具備可擴展的、人類水平的全身運動技能,是通用人形機器人的終極目標。

      研究這一能力的一個核心途徑是高保真運動追蹤:控制器需在接觸和干擾下保持動態穩定,同時精確復現參考動作。這不僅是美學追求,更是實現移動操作、表達性交互等復雜人形機器人能力的基礎。

      近年來,基于學習的運動追蹤取得長足進展,借助強化學習,單一控制器已能高精度完成舞蹈、空翻等高動態動作。然而,隨著運動庫向更大規模、更多風格和復雜接觸模式擴展,一個難題持續浮現:追蹤質量顯著下降。

      這一困境源于當前訓練流程中兩個相互疊加的障礙。首先是仿真中的學習瓶頸:現有方法多采用簡單的策略網絡表示,面對異構動作目標時,其表達能力隨數據多樣性增加而迅速飽和;同時,用強化學習統一訓練多任務會加劇梯度干擾,導致高動態行為上的保守平均或選擇性失敗。

      其次是物理可執行性瓶頸:即便仿真中表現優異,遷移到真實機器人仍面臨挑戰,因為現有建模忽略了扭矩-速度非線性、再生功率等關鍵驅動器特性,這些因素在高動態運動中會引發執行失穩。

      為系統應對上述挑戰,研究團隊提出了OMNIXTREME框架。該框架通過流匹配策略進行“專家到統一”的生成式預訓練,以高容量模型擴展表達能力,同時避開多任務強化學習的干擾。

      隨后引入殘差強化學習后訓練階段,結合考慮驅動特性的建模、精細化隨機化和功率安全約束,將預訓練策略精煉至可真實執行。

      該設計使單一策略既能規?;瘜W習多樣化技能,又能穩健部署于物理硬件,有效突破傳統高動態人形機器人控制中的保真度瓶頸。

      二、三階段完成策略訓練,高度對齊真實硬件特性

      具體來看,OMNIXTREME的整體框架包含三個環環相扣的階段。在預訓練階段,研究者通過基于DAgger的流匹配方法訓練出一個統一的基策略,其核心目標是從多個專注于單一運動的專家策略中,聚合多樣化的運動先驗。

      隨后進入后訓練階段,此時預訓練的基策略被凍結,一個輕量級的殘差策略在嚴格的電機約束、激進的領域隨機化以及功率安全正則化下進行優化,旨在彌合仿真環境與真實物理世界之間的動態差距。

      最后是機載部署階段,整個推理流程經過優化,能夠實時且完全在機器人的機載計算機上執行,從而確保在復雜物理環境中的魯棒與敏捷控制。


      ▲OMNIXTREME框架

      在可擴展的基于流的策略預訓練中,問題被形式化為一個蒸餾過程。觀測空間涵蓋了機器人的本體感覺信息、包含軀干姿態差異和參考運動目標的指令,以及過去的狀態歷史。

      研究者的目標是為參考運動數據集中的每一個運動先訓練一個專家策略,然后將這些專家知識蒸餾到一個統一的、基于流的通用策略中。這個數據集本身也極具多樣性,融合了LAFAN1、AMASS、MimicKit和Reallusion等多個來源的行為模式和高動態動作,并統一重定向到宇樹G1機器人上。

      專家策略的訓練采用近端策略優化算法,為每個特定運動生成一個教師策略。而將多個專家知識統一起來的關鍵在于流匹配目標函數。該函數通過學習一個速度場,將隨機噪聲逐步導向專家動作,從而掌握從任意狀態生成正確動作的泛化能力。

      為了在預訓練階段就為未來的真實部署打下基礎,研究團隊在教師訓練和流匹配訓練中都采用了保真度保持的隨機化和噪聲策略。

      盡管預訓練的基策略已經具備了魯棒的行為基礎,但在面對真實世界復雜的物理效應時,性能差距依然存在。為此,研究者引入了考慮驅動特性的后訓練階段,其核心是殘差策略建模。

      在凍結基策略后,一個輕量級的MLP殘差策略被訓練用來產生修正動作。基策略提供主要的行為指引,而殘差策略則負責微調,共同生成最終的控制指令,并通過PPO算法以累積獎勵為監督進行優化。

      為了讓殘差策略能夠應對真實世界的挑戰,后訓練環境中融入了大量考慮驅動特性的物理約束。包括激進的領域隨機化(擾動范圍和難度遠超預訓練階段)、初始姿態噪聲、隨機的地形臺階,并且特意放寬了終止閾值,允許策略在更大偏差下進行探索和糾錯。

      其次是功率安全驅動正則化,通過引入對過大負向機械功率的懲罰,來抑制可能觸發真實硬件過流保護或熱應力的劇烈電機制動,尤其針對膝關節在高動態沖擊中的能量吸收過程進行約束。

      最后,后訓練階段還通過精細的扭矩-速度約束來彌合驅動器建模的差距。研究者將真實的電機扭矩-速度工作包絡線直接集成到仿真中,根據關節速度和扭矩方向動態計算允許的最大扭矩,確保指令在物理上可實現。此外,還通過非線性摩擦項進一步模擬了驅動器內部的能量損耗。

      這一系列結構化的措施,使得最終得到的控制器更安全、對干擾更魯棒,并與真實硬件特性高度對齊。

      三、平均成功率91.08%,端到端推理延遲僅10毫秒

      為驗證OMNIXTREME在處理高動態人形機器人控制任務中的性能,研究團隊建立了一個雙層架構的運動庫,除了包含廣泛使用的LAFAN1標準基準數據集外,還特別打造了名為XtremeMotion的挑戰性數據集,其中包含翻轉、霹靂舞、雜技和武術等60種具備高動態強度和頻繁接觸切換的動作。

      在與“從零開始的強化學習”以及“專家到統一MLP蒸餾”等基準方法的對比中,OMNIXTREME在各項模擬指標上均表現優異,特別是在面對高難度動作和未見過的運動序列時,其成功率和追蹤精度的領先優勢更為顯著。


      ▲OMNIXTREME與其他方法的對比

      這證明了基于流匹配的生成式預訓練能更有效地擴展模型的表示能力,而不會像傳統方法那樣在運動類別增加時出現性能崩塌。

      在實際硬件部署方面,研究者將該統一策略應用于宇樹G1人形機器人,并通過 TensorRT優化實現了約10毫秒的超低端到端推理延遲,確保機器人能以50Hz的頻率在機載端實時執行。實驗結果顯示,OMNIXTREME能夠在物理世界中穩定復現極限平衡、高速轉向和復雜的全身協調動作,平均成功率達到91.08%


      ▲真機部署成功率

      消融實驗進一步揭示了“動作感知后訓練”的重要性:通過引入針對電機轉矩-速度特性的物理建模、更激進的領域隨機化,以及限制過度制動負載的功耗安全正則化,系統能有效緩解模擬與現實之間的差距。


      ▲消融實驗結果

      具體而言,對于翻轉等沖擊性動作,電機包絡約束是關鍵;而對于霹靂舞等接觸密集型技能,隨機化和功耗監管則大幅提升了機器人處理接觸干擾與硬件保護的能力,從而避免了過流或電壓不穩導致的崩潰。

      總體而言,這些實驗證實了OMNIXTREME的可擴展性,也為未來人形機器人邁向人類水平的靈巧運動提供了一條可能的實踐路徑。

      結語:打破保真度與可擴展性權衡后,下一步將融入高保真執行器特性

      OMNIXTREME既緩解了規模擴大時的學習瓶頸,也解決了仿真到現實部署時的物理可執行性瓶頸。讓單一統一策略即可可靠執行多種極限動作,打破了傳統上保真度與可擴展性之間的權衡。

      研究團隊稱,他們認為聯合擴展數據多樣性與模型容量對于提升人形機器人全身運動技能的泛化能力至關重要。隨著基于學習的控制器被推向更動態、更受硬件限制的場景,考慮執行器特性的建模正成為學習流程中的關鍵組成部分。

      未來,通過融入高保真執行器特性,如電流、功率、扭矩以及速度相關的約束,研究人員能夠進一步縮小仿真與現實的差距,確保學習到的行為能夠無縫遷移到物理人形機器人上。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普深夜驚聞噩耗,美國內憂外患一起襲來,美債被大規模拋售

      特朗普深夜驚聞噩耗,美國內憂外患一起襲來,美債被大規模拋售

      阿訊說天下
      2026-03-08 00:54:59
      豪門狂歡夜:巴薩1-0,尤文4-0,曼城3-1,切爾西4-2,阿森納2-1

      豪門狂歡夜:巴薩1-0,尤文4-0,曼城3-1,切爾西4-2,阿森納2-1

      側身凌空斬
      2026-03-08 06:12:16
      比亞迪發布閃充,意外拯救了5萬座加油站的中石油中石化

      比亞迪發布閃充,意外拯救了5萬座加油站的中石油中石化

      生活魔術專家
      2026-03-07 22:29:33
      文旅部部長:7名外國游客買了40箱中國貨離境,交了超重費但有退稅政策,還是合算

      文旅部部長:7名外國游客買了40箱中國貨離境,交了超重費但有退稅政策,還是合算

      紅星新聞
      2026-03-07 13:24:24
      董璇是無數人心中的女神,如今被曝欠債千萬

      董璇是無數人心中的女神,如今被曝欠債千萬

      林雁飛
      2026-03-07 20:12:13
      3月8日,券商給予評級并且給出目標價的公司一覽

      3月8日,券商給予評級并且給出目標價的公司一覽

      A股數據表
      2026-03-08 06:00:03
      好家伙《我的山與?!烽_播就差評一片,觀眾給的理由竟出奇一致!

      好家伙《我的山與?!烽_播就差評一片,觀眾給的理由竟出奇一致!

      潮鹿逐夢
      2026-03-07 22:02:33
      熬了8年!高速收費終于定了,2026年起,車主上高速徹底變了

      熬了8年!高速收費終于定了,2026年起,車主上高速徹底變了

      奇思妙想草葉君
      2026-03-06 23:23:57
      河村勇輝閃耀G聯賽卻難打NBA!專家詳解困境:最大原因還是身高

      河村勇輝閃耀G聯賽卻難打NBA!專家詳解困境:最大原因還是身高

      羅說NBA
      2026-03-08 06:12:07
      李自成兵敗到底有多悲慘?讓我們看看他手下文臣武將的結局就知道

      李自成兵敗到底有多悲慘?讓我們看看他手下文臣武將的結局就知道

      談史論天地
      2026-03-07 05:58:46
      鄺兆鐳中超處子秀!09年齡段第一人,0突破0射門,3次對抗均失敗

      鄺兆鐳中超處子秀!09年齡段第一人,0突破0射門,3次對抗均失敗

      奧拜爾
      2026-03-07 21:31:37
      回顧:孫子長相神似爺爺,婆婆懷疑兒媳12年,親子鑒定后全家愣住

      回顧:孫子長相神似爺爺,婆婆懷疑兒媳12年,親子鑒定后全家愣住

      談史論天地
      2026-02-28 14:55:57
      伊朗反擊取得重大成果?千萬別信網上的那些專家和爽文

      伊朗反擊取得重大成果?千萬別信網上的那些專家和爽文

      壹家言
      2026-03-04 19:37:20
      長期佩戴骨傳導耳機會致聾?醫生:7天內是黃金治療期

      長期佩戴骨傳導耳機會致聾?醫生:7天內是黃金治療期

      人民日報健康客戶端
      2026-03-06 10:50:07
      拒絕冷門!德約戰滿三盤2-1逆轉過關,迎印第安維爾斯開門紅

      拒絕冷門!德約戰滿三盤2-1逆轉過關,迎印第安維爾斯開門紅

      全景體育V
      2026-03-08 08:11:06
      很多人還不知道,原來只要知道對方手機號碼,就可以查到對方位置了!

      很多人還不知道,原來只要知道對方手機號碼,就可以查到對方位置了!

      CG說科技
      2026-03-05 16:59:05
      B-52重返戰場:當美軍開始用二戰式轟炸,戰爭其實已經結束了一半

      B-52重返戰場:當美軍開始用二戰式轟炸,戰爭其實已經結束了一半

      斌聞天下
      2026-03-07 07:30:03
      離譜!比亞迪閃充的核心,竟是我們小時候吐槽的水池數學題?

      離譜!比亞迪閃充的核心,竟是我們小時候吐槽的水池數學題?

      趣味萌寵的日常
      2026-03-07 22:30:35
      普京與伊朗總統通電話:必須立即停止美國對伊朗的軍事行動

      普京與伊朗總統通電話:必須立即停止美國對伊朗的軍事行動

      俄羅斯衛星通訊社
      2026-03-07 16:11:02
      39分慘案引爆內訌危機!掘金最強陣崩盤,阿德爾曼痛批無競爭精神

      39分慘案引爆內訌危機!掘金最強陣崩盤,阿德爾曼痛批無競爭精神

      田先生籃球
      2026-03-07 20:30:02
      2026-03-08 09:40:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11320文章數 116989關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      媒體:伊朗問題要注意普京的動向 其在向美以喊話

      頭條要聞

      媒體:伊朗問題要注意普京的動向 其在向美以喊話

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      汪小菲曝親媽猛料,張蘭公開財產分配

      財經要聞

      油價要失控?

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      藝術
      家居
      教育
      健康
      軍事航空

      藝術要聞

      他是二王書法的化身?米芾的秘密揭曉!

      家居要聞

      暖棕撞色 輕法奶油風

      教育要聞

      成長路上的心靈迷霧:青春期女生常見心理

      轉頭就暈的耳石癥,能開車上班嗎?

      軍事要聞

      美第三個航母打擊群據稱準備部署至中東

      無障礙瀏覽 進入關懷版