![]()
本文的共同第一作者為新加坡國(guó)立大學(xué)博士生費(fèi)昕,新加坡國(guó)立大學(xué)博士生徐志軒。合作者為浙江大學(xué)實(shí)習(xí)生方懷聰、新加坡國(guó)立大學(xué)博士生張?zhí)眍!Mㄓ嵶髡邽樾录悠聡?guó)立大學(xué)計(jì)算機(jī)學(xué)院助理教授、RoboScience 首席科學(xué)家邵林,研究方向?yàn)闄C(jī)器人學(xué)習(xí)與靈巧操作。
T (R,O) Grasp 是一種基于物體 — 機(jī)器手空間關(guān)系建模的圖擴(kuò)散架構(gòu),具備跨智能體的統(tǒng)一表征能力。在 NVIDIA 40GB A100 GPU 上,該方法可實(shí)現(xiàn) 5 FPS 的推理速度和 50 grasp/s 的吞吐量,并在多種智能體上取得 94.83% 的平均抓取成功率,刷新了跨智能體靈巧抓取的 SOTA,具備與動(dòng)態(tài)場(chǎng)景實(shí)時(shí)交互的能力。
![]()
目前,該論文已被機(jī)器人領(lǐng)域頂級(jí)會(huì)議 IEEE International Conference on Robotics & Automation(ICRA 2026)接收。
- 論文標(biāo)題:T (R,O) Grasp: Efficient Graph Diffusion of Robot-Object Spatial Transformation for Cross-Embodiment Dexterous Grasping
- 論文鏈接:https://arxiv.org/pdf/2510.12724
- 項(xiàng)目主頁(yè):https://nus-lins-lab.github.io/trograspweb/
一、引言
靈巧手抓取是機(jī)器人完成復(fù)雜操作的基礎(chǔ)。目前基于深度學(xué)習(xí)的方法主要可以分為機(jī)器人中心 (robot centric)、物體中心 (object-centric) 和交互中心 (interaction-centric) 三種。
機(jī)器人中心的模型直接學(xué)習(xí)觀測(cè)(如點(diǎn)云、圖像)到動(dòng)作指令的映射,推理速度快,但樣本學(xué)習(xí)效率低,難以實(shí)現(xiàn)跨智能體的泛化。
物體中心的方法預(yù)測(cè)物體上的接觸信息(如接觸點(diǎn)或接觸熱力圖),泛化性強(qiáng),但根據(jù)接觸信息優(yōu)化抓取的動(dòng)作指令復(fù)雜耗時(shí),且無(wú)法適用于觀測(cè)信息不全的應(yīng)用場(chǎng)景。
此前,D (R,O) Grasp 提出了交互中心的靈巧手抓取表征,通過(guò)機(jī)器手與物體點(diǎn)云間的距離矩陣表示交互關(guān)系,彌補(bǔ)了機(jī)器人中心方法的泛化性不足,提升了物體中心方法的推理效率。
然而,D (R,O) 距離矩陣的預(yù)測(cè)需要巨大的計(jì)算開(kāi)銷,且該方法依賴于機(jī)器手初始姿態(tài)的合理性,因此難以基于 D (R,O) 表征搭建大規(guī)模靈巧手抓取模型。
為克服以上局限性,我們提出 T (R,O) 圖結(jié)構(gòu)作為靈巧手抓取的統(tǒng)一表征(如圖 1 所示),將物體與機(jī)器手關(guān)節(jié)的幾何、拓?fù)湫畔⒕幋a為節(jié)點(diǎn),將其相對(duì)的位置關(guān)系表示為邊。相較于 D (R,O) 距離矩陣,T (R,O) 圖結(jié)構(gòu)在保持表達(dá)能力的同時(shí),提供了更高效、更輕量的建模方案。
![]()
圖 1. T (R,O) 圖結(jié)構(gòu)與擴(kuò)散過(guò)程
二、方法
![]()
圖 2. T (R,O) Grasp 整體框架
給定物體點(diǎn)云和不同機(jī)器手的 URDF 配置文件,模型的目標(biāo)是輸出多樣的抓取姿態(tài),并具備跨智能體的泛化能力。T (R,O) Grasp 的整體框架如圖 2 所示,主要分為以下三部分:
1. T (R,O) 圖結(jié)構(gòu)的構(gòu)建
2. 圖擴(kuò)散網(wǎng)絡(luò)的訓(xùn)練與關(guān)節(jié)位姿矩陣的預(yù)測(cè)
3. 基于關(guān)節(jié)位姿矩陣的逆運(yùn)動(dòng)學(xué)求解
2.1 T (R,O) 圖結(jié)構(gòu)的構(gòu)建
![]()
圖 3. T (R,O) 圖結(jié)構(gòu)的構(gòu)建
如圖 3 所示,T (R,O) 圖結(jié)構(gòu)基于物體 — 機(jī)器手的相對(duì)位姿建模其交互關(guān)系。首先,物體點(diǎn)云通過(guò)預(yù)訓(xùn)練的 VQ-VAE 編碼為圖中的物體節(jié)點(diǎn);其次,結(jié)合機(jī)器手關(guān)節(jié)的幾何 BPS 特征與關(guān)節(jié)位姿信息,構(gòu)建圖中的關(guān)節(jié)節(jié)點(diǎn);最后,在物體 — 關(guān)節(jié)和關(guān)節(jié) — 關(guān)節(jié)之間,以相對(duì)位姿關(guān)系定義圖中的邊。
2.2 圖擴(kuò)散網(wǎng)絡(luò)的訓(xùn)練與關(guān)節(jié)位姿矩陣的預(yù)測(cè)
基于 T (R,O) 圖結(jié)構(gòu),模型可對(duì)關(guān)節(jié)位姿進(jìn)行標(biāo)準(zhǔn) DDIM 范式下的加噪 — 去噪訓(xùn)練,進(jìn)而完成關(guān)節(jié)位姿矩陣的預(yù)測(cè)。其中,Denoiser 由多層 Transformer 組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖 4 所示。
![]()
圖 4. T (R,O) Denoiser 網(wǎng)絡(luò)架構(gòu)
此外,得益于 DDIM 在推理階段對(duì)多種 guidance 的良好支持,T (R,O) Grasp 在訓(xùn)練完成后能夠在多種條件約束下生成抓取姿態(tài),例如指定抓取方向、限定物體上的抓取區(qū)域等。
2.3 基于關(guān)節(jié)位姿矩陣的逆運(yùn)動(dòng)學(xué)求解
模型預(yù)測(cè)得到機(jī)器手在抓取時(shí)各關(guān)節(jié)的位姿矩陣,即可通過(guò) Pyroki toolkit 即時(shí)求解如下逆運(yùn)動(dòng)學(xué)問(wèn)題,得到抓取姿態(tài)的動(dòng)作指令。
![]()
三、實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)中,我們系統(tǒng)評(píng)估了 T (R,O) Grasp 在無(wú)條件生成以及條件約束生成(抓取方向與抓取區(qū)域)兩種設(shè)置下的靈巧手抓取性能。實(shí)驗(yàn)采用抓取成功率、多樣性和推理速度三個(gè)指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià)。
![]()
圖 5. T (R,O) Grasp 與 baseline 性能對(duì)比
![]()
圖 6. T (R,O) Grasp 在無(wú)條件設(shè)置下的靈巧抓取
![]()
圖 7. T (R,O) Grasp 在給定抓取方向下的靈巧抓取
![]()
圖 8. T (R,O) Grasp 在給定抓取區(qū)域下的靈巧抓取
圖 5-8 顯示,T (R,O) Grasp 在兩種設(shè)置下的性能均超越現(xiàn)有方法,具備在多種約束下跨智能體生成準(zhǔn)確、多樣靈巧手抓取的能力。此外,T (R,O) Grasp 在實(shí)驗(yàn)硬件平臺(tái) NVIDIA 40GB A100 上平均可達(dá)到 5 FPS 的推理速度,為動(dòng)態(tài)場(chǎng)景下實(shí)現(xiàn)閉環(huán)抓取提供了基礎(chǔ)。
在真實(shí)機(jī)器人實(shí)驗(yàn)中,我們將算法部署于 xArm 機(jī)械臂平臺(tái),并在 XHand 和 LEAP Hand 兩種靈巧手上進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果表明,T (R,O) Grasp 在 XHand 和 LEAP Hand 上分別達(dá)到了 91.0% 和 90.0% 的抓取成功率。此外,在動(dòng)態(tài)傳送帶環(huán)境中,T (R,O) Grasp 同樣能夠完成穩(wěn)定抓取,驗(yàn)證了其在動(dòng)態(tài)場(chǎng)景下的閉環(huán)抓取能力。
![]()
圖 9. T (R,O) Grasp 在 XHand 與 LEAP Hand 上的真實(shí)機(jī)器人抓取
![]()
圖 10. T (R,O) Grasp 在傳送帶動(dòng)態(tài)環(huán)境的真實(shí)機(jī)器人抓取
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.