網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

1米3宇樹G1完美上籃！港科大解鎖全球首個真實籃球機器人Demo

2025-11-26 13:32:41　來源: 量子位

北京舉報

分享至

henry 發(fā)自凹非寺
量子位 | 公眾號 QbitAI

1米3的機器人小土豆，三步上籃也可以如此絲滑。

別誤會，這臺宇樹G1暫時還不準備參加NBA選秀，但它剛解鎖的 “現(xiàn)實世界打籃球” 技能，離上“村BA”首發(fā)應該不遠了。

據(jù)悉，這是全球首個能在真實場景中完成籃球動作的機器人demo，來自香港科技大學的研究團隊。

雖然團隊還沒公開完整的技術細節(jié)，但結(jié)合他們此前讓機器人“打籃球”的工作，這次很可能是在之前研究的基礎上，進一步改良而來。

接下來，讓我們一窺究竟。

SkillMimic-v2

首先是被收錄于SIGGRAPH 2025SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations

SkillMimic-V2旨在解決交互演示強化學習（RLID）中演示軌跡稀疏、含噪且覆蓋不足的難題。

其通過引入拼接軌跡圖（STG）狀態(tài)轉(zhuǎn)移場（STF）自適應軌跡采樣（ATS）等技術，成功地在低質(zhì)量數(shù)據(jù)條件下，訓練出了兼具魯棒恢復能力與技能遷移能力的復雜交互策略。

當前，通過動作捕捉等方式收集的數(shù)據(jù)往往存在以下缺陷：

稀疏性 (Sparse)：演示數(shù)據(jù)僅覆蓋了有限的技能變體，缺乏技能之間的過渡軌跡。
不連貫性 (Disconnected)：不同的技能片段是獨立的，缺乏自然的連接。
噪聲 (Noisy)：數(shù)據(jù)中包含物理上不可行的狀態(tài)或誤差（例如手與物體的穿模、接觸位置偏差），這在精細操作任務中會導致嚴重的訓練失敗。

這些有缺陷的數(shù)據(jù)無法捕捉到技能變體和轉(zhuǎn)換的完整頻譜。

不過，相比直接去收集更好的數(shù)據(jù)，研究認為盡管演示數(shù)據(jù)是稀疏和嘈雜的，但存在無限的物理可行軌跡

這些潛在的軌跡天然地能夠橋接不同的技能，或者從演示狀態(tài)的鄰域中涌現(xiàn)出來。

這就形成了一個連續(xù)的、可能的技能變體和轉(zhuǎn)換空間，從而可以利用這些不完美的演示數(shù)據(jù)，訓練出平滑、魯棒的策略。

基于以上認識，研究提出三個關鍵步驟發(fā)現(xiàn)并學習這些潛在軌跡：

拼接軌跡圖 (Stitched Trajectory Graph, STG)：為了解決技能間的連接問題（如從運球切換到投籃），算法在不同演示軌跡之間尋找相似狀態(tài)。如果在兩個不同技能的軌跡中發(fā)現(xiàn)相似狀態(tài)，就建立一條連接，并用掩碼標記中間的過渡幀。這構(gòu)建了一個宏觀的圖結(jié)構(gòu)，允許策略學習未在原始數(shù)據(jù)中出現(xiàn)的技能轉(zhuǎn)換。
狀態(tài)轉(zhuǎn)移場 (State Transition Field, STF)：訓練時不只從參考軌跡的特定點開始，而是從其鄰域內(nèi)隨機采樣狀態(tài)初始化。對于鄰域內(nèi)的任意采樣狀態(tài)，計算其與參考軌跡中所有狀態(tài)的相似度，找到最佳匹配目標。如果起點與目標點距離較遠，算法會插入N個掩碼狀態(tài)（Masked States）。這些狀態(tài)不計算獎勵，僅作為時間緩沖，迫使RL策略學習如何從偏離狀態(tài)“歸位”到參考軌跡，從而形成一個具有恢復能力的“場” 。
自適應軌跡采樣 (Adaptive Trajectory Sampling, ATS)：根據(jù)當前策略在某段軌跡上的表現(xiàn)（獎勵值）動態(tài)調(diào)整采樣概率。獎勵越低（越難學）的片段，被采樣的概率越高。這解決了長序列中因局部失敗導致整個鏈條斷裂的問題。

由此，技能轉(zhuǎn)換和泛化能力能夠遠超最初不包含任何技能轉(zhuǎn)換或錯誤恢復的稀疏演示，實現(xiàn)更高效地技能學習與泛化性。

比如，在仿真環(huán)境（Isaac Gym）中，機器人可以在受到干擾時，仍可以完成上籃動作。

還能實現(xiàn)運球-投籃間的技能轉(zhuǎn)換。

實驗表明，相比此前的SOTA (SkillMimic)方法，SkillMimic-V2在困難技能（如 Layup）上的成功率從0提升到了91.5%。技能轉(zhuǎn)換成功率 (TSR) 更是從2.1%飆升至94.9%

SkillMimic

接下來是SkillMimic-V2的前作——SkillMimic: Learning Basketball Interaction Skills from Demonstrations，這篇論文入選了CVPR 2025 Highlight。

SkillMimic旨在解決物理模擬人-物交互（HOI）中傳統(tǒng)方法依賴繁瑣手工獎勵設計且難以在統(tǒng)一框架下掌握多樣化技能的難題。

其通過引入統(tǒng)一HOI模仿獎勵接觸圖（Contact Graph）分層技能復用等技術，成功地在單一獎勵配置下，訓練出了兼具精準接觸控制與長程任務組合能力的通用交互策略。

研究pipeline包含三個部分：

首先，采集真實籃球運動技能，構(gòu)建一個龐大的人機交互（HOI）運動數(shù)據(jù)集。
其次，訓練一個技能策略，通過模仿相應的HOI數(shù)據(jù)來學習交互技能，設計了一個統(tǒng)一的HOI模仿獎勵機制，用于模仿各種不同的HOI狀態(tài)轉(zhuǎn)換。
最后，是訓練一個高級控制器（HLC），用于復用已學習的技能來處理復雜任務，同時使用極其簡單的任務獎勵。

其中，SkillMimic方法的關鍵在于：

統(tǒng)一的HOI模仿獎勵（Unified HOI Imitation Reward）：放棄針對每種技能單獨設計獎勵，而是設計一套通用的獎勵配置，通過模仿HOI數(shù)據(jù)集來學習所有技能。
分層學習架構(gòu)（Hierarchical Solution）：低層：交互技能策略（IS Policy）：通過SkillMimic框架學習各種基礎交互技能（如運球、上籃）。高層：高級控制器（HLC）：訓練一個高級策略來復用和組合已習得的IS策略，以完成長程復雜任務（如連續(xù)得分)。
數(shù)據(jù)驅(qū)動：構(gòu)建了兩個數(shù)據(jù)集BallPlay-V（基于視頻估算）和BallPlay-M（基于光學動捕，精度更高），包含約35分鐘的多樣化籃球交互數(shù)據(jù) 。

實驗表明，SkillMimic能夠使用同一套配置學會多種風格的籃球技能（運球、上籃、投籃等），成功率顯著高于DeepMimic和AMP。

在演示中，我們可以看到，仿真環(huán)境的機器人能夠?qū)崿F(xiàn)繞圈運球等高級技能。

PhysHOI

如果追溯SkillMimic作者的工作，就會發(fā)現(xiàn)早在2023年，論文PhysHOI: Physics-Based Imitation of Dynamic Human-Object Interaction就試圖讓仿真中的機器人能夠根據(jù)演示學習籃球技能。

為實現(xiàn)這一點，

PhysHOI在當時提出了一種基于物理仿真的動態(tài)人-物交互（HOI）模仿學習框架。

簡單來說，給定參考的HOI數(shù)據(jù)，將當前的模擬HOI狀態(tài)與參考HOI狀態(tài)一起輸入策略模型。

策略輸出動作，并通過物理模擬器生成下一步的模擬HOI狀態(tài)，然后將運動學獎勵與接觸-抓取（CG）獎勵加權(quán)結(jié)合，并優(yōu)化策略以最大化期望回報。

重復上述過程直至收斂，即可復現(xiàn)參考數(shù)據(jù)中的HOI技能。

除此之外，為防止運動學模仿獎勵陷入最優(yōu)解，研究還引入了接觸圖（Contact Graph）

給定一個HOI幀，接觸圖節(jié)點包含所有身體部位和物體。每條邊都是一個二元接觸標簽，表示接觸與否。為了簡化計算，還可以將多個身體部位聚合到一個節(jié)點中，形成聚合接觸圖。

同時，為了彌補HOI場景的不足，研究還引入了全身籃球技巧的BallPlay數(shù)據(jù)集。

在實驗中，PhysHOI在不同大小的籃球操作上表現(xiàn)出了魯棒性。

One more thing

值得一提的是，在PhysHOI、SkillMimic 、SkillMimic-v2三篇工作中，王蔭槐都擔任了核心角色，網(wǎng)友調(diào)侃他是“籃球科研第一人”。

王蔭槐是香港科技大學的博士二年級學生，導師為譚平教授。

在此之前，他碩士就讀于北京大學，本科畢業(yè)于西安電子科技大學，并于IDEA Research、宇樹科技以及上海人工智能實驗室等機構(gòu)進行實習。

從2023年在仿真環(huán)境的小試牛刀，到這次直接讓機器人在真實環(huán)境中打球，得益于機器人本體的發(fā)展，這速度真是很快了！

[1]https://x.com/NliGjvJbycSeD6t/status/1991536374097559785

[2]https://wyhuai.github.io/info/

[3]https://ingrid789.github.io/SkillMimicV2/

[4]https://wyhuai.github.io/physhoi-page/[5]https://ingrid789.github.io/SkillMimic/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.