零樣本 Sim-to-Real ！實(shí)現(xiàn)五指靈巧手力控抓取與手內(nèi)操作

2026-03-25 11:45:23　來源: 機(jī)器之心Pro

河北舉報

分享至

實(shí)現(xiàn)具備人類水平的靈巧操作能力，是機(jī)器人學(xué)領(lǐng)域長期以來的核心挑戰(zhàn)之一。盡管多指靈巧手在硬件上具備了類似人類的潛力，但由于接觸豐富的物理特性和非理想的驅(qū)動機(jī)制，訓(xùn)練能夠直接部署在真實(shí)硬件上的控制策略仍然非常困難。

ByteDance Seed 團(tuán)隊(duì)最新的研究論文《Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexterous Force-Based Grasping and Manipulation》 [1]，針對這一關(guān)鍵問題提出了實(shí)用的強(qiáng)化學(xué)習(xí)（RL）框架。

該研究的核心貢獻(xiàn)在于提出了一套完整的 Sim-to-Real 解決方案，通過結(jié)合高密度的觸覺反饋和基于電機(jī)電流估算的關(guān)節(jié)力矩感知，顯式地調(diào)節(jié)物理交互過程。該框架不僅解決了高分辨率觸覺仿真的計算瓶頸，還通過數(shù)據(jù)驅(qū)動的執(zhí)行器建模消除了對昂貴力矩傳感器的依賴，最終實(shí)現(xiàn)了在純仿真環(huán)境中訓(xùn)練的策略。在仿真或訓(xùn)練環(huán)境中完成訓(xùn)練后，模型能夠在真實(shí)的五指靈巧手上實(shí)現(xiàn)零樣本（Zero-Shot）部署，即無需額外的真實(shí)數(shù)據(jù)進(jìn)行微調(diào)，便可直接在真實(shí)機(jī)器人上運(yùn)行。

Figure 1 ：融合觸覺感知與關(guān)節(jié)力矩的全狀態(tài)策略框架

一、三大核心技術(shù)：

打通從仿真到現(xiàn)實(shí)的感知與驅(qū)動鏈路

論文的核心問題在于如何克服仿真與現(xiàn)實(shí)之間在觸覺感知、接觸物理和執(zhí)行器動力學(xué)方面的巨大差異（Reality Gap），從而訓(xùn)練出能夠進(jìn)行力控抓取和靈巧操作的全狀態(tài)策略。

該研究構(gòu)建了一個由三大核心技術(shù)組成的完整體系，實(shí)現(xiàn)了從仿真訓(xùn)練到真實(shí)部署的無縫銜接。

1. 計算高效的觸覺仿真：高分辨率 + 高幀率，魚與熊掌兼得

高保真度的觸覺仿真是學(xué)習(xí)接觸豐富技能的長期障礙。傳統(tǒng)的有限元分析（FEM）或軟體仿真計算成本過高，無法滿足強(qiáng)化學(xué)習(xí)對大規(guī)模并行和高幀率的需求。

該研究提出了一種基于距離場的快速觸覺仿真方法。通過并行正向運(yùn)動學(xué)，計算密集的虛擬觸覺單元陣列與物體表面之間的距離。這種方法不僅能夠提供強(qiáng)化學(xué)習(xí)所需的高頻信號，還保留了關(guān)鍵的接觸信息（如接觸力大小和受力加權(quán)接觸中心）。這種設(shè)計在保證物理合理性的同時，極大地提升了仿真效率，使得策略能夠在仿真中充分探索復(fù)雜的接觸動力學(xué)。

Figure 2 ：接觸點(diǎn)建模與材料屬性

通過對比仿真與真實(shí)世界中的接觸數(shù)據(jù)（如下圖所示），可以發(fā)現(xiàn)兩者在接觸點(diǎn)分布和接觸力大小上表現(xiàn)出高度的一致性，證明了該觸覺仿真方法的高保真度。

2. 電流-力矩校準(zhǔn)：無需力矩傳感器，也能精準(zhǔn)力控

大多數(shù)商用靈巧手采用連桿或者腱繩等傳動結(jié)構(gòu)，缺乏關(guān)節(jié)級的力矩傳感器，只能提供電機(jī)電流測量值。仿真中的理想力矩控制與真實(shí)電機(jī)的非理想特性之間存在巨大的現(xiàn)實(shí)鴻溝。

為了解決這一問題，研究團(tuán)隊(duì)引入了電流-力矩校準(zhǔn)機(jī)制。通過在準(zhǔn)靜態(tài)條件下擬合電機(jī)電流與接觸力、仿真力矩與接觸力之間的線性關(guān)系，建立了一個可靠的「電流到力矩」映射。這種數(shù)據(jù)驅(qū)動的校準(zhǔn)方法，使得策略在真實(shí)部署時，能夠?qū)⒆x取到的歸一化電流信號作為「關(guān)節(jié)力矩」輸入，從而在無需物理力矩傳感器的情況下，實(shí)現(xiàn)了對交互力的顯式感知和控制。

Figure 3 ：真實(shí)世界電流-力與仿真力矩-力的校準(zhǔn)與對齊

3. 執(zhí)行器動力學(xué)建模與隨機(jī)化：顯著提高 Sim-to-Real 魯棒性

真實(shí)電機(jī)存在諸多非理想特性，如齒輪間隙（Backlash）、力矩-速度飽和（Torque-Speed Saturation）以及摩擦力等。如果仿真中忽略這些特性，訓(xùn)練出的策略在真實(shí)硬件上往往會表現(xiàn)出脆弱性。

該研究在仿真中顯式地對這些執(zhí)行器動力學(xué)進(jìn)行了建模，并對關(guān)鍵參數(shù)（如堵轉(zhuǎn)力矩、空載速度、齒輪間隙閾值等）進(jìn)行了廣泛的域隨機(jī)化（Domain Randomization）。這種策略迫使控制策略適應(yīng)各種硬件缺陷和公差變化，顯著提高了 Sim-to-Real 轉(zhuǎn)移的魯棒性。

二、全狀態(tài)策略與創(chuàng)新訓(xùn)練范式：

實(shí)現(xiàn)力控自適應(yīng)抓取與手內(nèi)物體旋轉(zhuǎn)

基于上述 Sim-to-Real 框架，研究團(tuán)隊(duì)成功訓(xùn)練并部署了兩種關(guān)鍵的靈巧操作技能：力控自適應(yīng)抓取（Force-Adaptive Grasping）和手內(nèi)物體旋轉(zhuǎn)（In-Hand Object Reorientation）。

1. 倒置「接物」訓(xùn)練范式：提升樣本效率與魯棒性

傳統(tǒng)的桌面抓取訓(xùn)練范式往往面臨樣本效率低、獎勵工程復(fù)雜以及容易產(chǎn)生「獎勵黑客」（Reward Hacking）行為等問題。為此，研究團(tuán)隊(duì)提出了一種創(chuàng)新的倒置「接物」（Inverted Catching）訓(xùn)練設(shè)置。

在這種設(shè)置下，靈巧手手心向上固定，物體從上方隨機(jī)掉落。這種利用重力自然將物體引入工作空間的方法，極大地簡化了探索過程，使策略能夠?qū)Ｗ⒂趯W(xué)習(xí)手指協(xié)調(diào)和接觸后的力調(diào)節(jié)。同時，這種動態(tài)接物過程鼓勵形成包絡(luò)式、多點(diǎn)接觸的抓取姿態(tài)，自然抑制了不穩(wěn)定的邊緣抓取策略，促使策略學(xué)習(xí)到更接近人類偏好的穩(wěn)定抓取方式。

2. 力自適應(yīng)抓取：精準(zhǔn)的力矩與接觸力控制

在力自適應(yīng)抓取任務(wù)中，策略需要根據(jù)用戶輸入的力指令（Force Command），動態(tài)調(diào)節(jié)各個手指的抓取力。

研究表明，結(jié)合接觸力懲罰（R-force）和關(guān)節(jié)力矩懲罰（R-torque）的復(fù)合獎勵函數(shù)是實(shí)現(xiàn)穩(wěn)健力控的關(guān)鍵。僅懲罰接觸力會導(dǎo)致關(guān)節(jié)力矩不足，抓取不穩(wěn)；僅懲罰關(guān)節(jié)力矩則無法有效將力傳遞到指尖。兩者的結(jié)合使得策略能夠同時協(xié)調(diào)關(guān)節(jié)驅(qū)動和指尖接觸，實(shí)現(xiàn)與指令高度線性相關(guān)的精準(zhǔn)力控。

Figure 4 ：不同獎勵設(shè)置下，關(guān)節(jié)力矩和接觸力隨力指令的變化

3. 手內(nèi)物體旋轉(zhuǎn)：觸覺與本體感覺的深度融合

手內(nèi)旋轉(zhuǎn)任務(wù)要求策略通過協(xié)調(diào)的手指步態(tài)（Finger Gaits），在保持穩(wěn)定接觸的同時，將物體繞指定軸旋轉(zhuǎn)。

消融實(shí)驗(yàn)（Ablation Study）深刻揭示了不同感知模態(tài)的重要性。結(jié)果顯示，包含受力加權(quán)接觸中心、接觸力和 6D 姿態(tài)表示的完整觀測配置取得了最佳性能（平均連續(xù)成功 25.1 次）。移除任何一種觸覺信息（接觸中心或接觸力）都會導(dǎo)致性能顯著下降，而完全沒有觸覺反饋的基線策略幾乎無法完成任務(wù)（平均成功 1.1 次）。這充分證明了高分辨率觸覺反饋在復(fù)雜手內(nèi)操作中的不可替代性。

Figure 5 ：真實(shí)世界與仿真環(huán)境中的手內(nèi)操作任務(wù)可視化結(jié)果

三、星動紀(jì)元五指靈巧手星動 XHAND1 ：

DexManip 零樣本部署的硬件核心支撐

DexManip 框架之所以能夠?qū)崿F(xiàn)驚艷的零樣本（Zero-Shot）部署，除了算法層面的創(chuàng)新，更離不開底層硬件——星動紀(jì)元自研國內(nèi)首創(chuàng)全直驅(qū)五指靈巧手——星動 XHAND1的強(qiáng)大支撐。該框架與 XHAND1 的硬件特性形成了完美的「軟硬協(xié)同」，在實(shí)際應(yīng)用場景中展現(xiàn)出不可替代的落地優(yōu)勢。

Figure 6 ：星動 XHAND1 靈巧手

1. 270° 環(huán)繞指端高分辨率觸覺陣列：捕捉精細(xì)接觸，破解手內(nèi)操作感知瓶頸

DexManip 論文的消融實(shí)驗(yàn)明確指出，高分辨率的觸覺反饋（接觸中心與接觸力）是實(shí)現(xiàn)手內(nèi)物體旋轉(zhuǎn)等復(fù)雜操作的決定性因素。星動 XHAND1 在每個手指端配備了270° 環(huán)繞的高分辨率觸覺陣列傳感器（單指 > 100 個觸覺點(diǎn)）。相比于傳統(tǒng)的壓阻類平板型傳感器，這種全包絡(luò)的曲面陣列能夠無死角地捕捉物體在指尖滾動、滑動時的微小接觸變化。結(jié)合高精度的力覺精度和三維力觸覺感知能力，星動 XHAND1 為 DexManip 策略提供了極其豐富且精準(zhǔn)的觀測輸入，使其在處理不規(guī)則物體或執(zhí)行精細(xì)的「指尖步態(tài)（Finger Gaits）」時游刃有余。

2. 高精度 URDF 與觸覺仿真模型的無縫對接：精準(zhǔn)對接仿真，縮小現(xiàn)實(shí)鴻溝

DexManip 框架的核心突破在于其計算高效的基于距離場的觸覺仿真。這一算法的成功高度依賴于仿真模型與真實(shí)物理世界的一致性。星動 XHAND1 官方提供了極高精度的 URDF 模型，不僅精確描述了運(yùn)動學(xué)連桿和動力學(xué)參數(shù)，還完美映射了真實(shí)傳感器的空間分布。這種「數(shù)字孿生」級別的模型支持，使得 DexManip 在仿真中計算的虛擬觸覺單元（Virtual Tactile Cells）能夠與真實(shí)星動 XHAND1 的傳感器陣列實(shí)現(xiàn) 1:1 的精準(zhǔn)對齊，從而大幅降低了 Sim-to-Real 的現(xiàn)實(shí)鴻溝，確保了純仿真訓(xùn)練策略在真實(shí)硬件上的「開箱即用」。

3. 全直驅(qū)架構(gòu)與電流-力矩校準(zhǔn)的完美契合：實(shí)現(xiàn)精準(zhǔn)力控，響應(yīng)更靈敏

在力自適應(yīng)抓取任務(wù)中，DexManip 提出通過「電流-力矩校準(zhǔn)」來替代昂貴的物理力矩傳感器。星動 XHAND1 采用的全直驅(qū)（Direct-Drive）電機(jī)架構(gòu)為這一算法提供了最理想的硬件基礎(chǔ)。全直驅(qū)設(shè)計從根本上消除了傳統(tǒng)減速器帶來的巨大摩擦、遲滯和非線性干擾，使得電機(jī)的相電流與輸出力矩之間保持著極高的線性相關(guān)性。這不僅讓 DexManip 的電流-力矩校準(zhǔn)過程更加精確可靠，還賦予了靈巧手極高的力控帶寬和超靈敏的動態(tài)響應(yīng)能力，使其能夠根據(jù) 10% 、50% 、100% 等不同指令，瞬間且精準(zhǔn)地調(diào)節(jié)抓取力度，安全地操作薯片、毛絨玩具等易碎或柔性物體。

Figure 7 ：對訓(xùn)練中未見過的不規(guī)則形狀物體進(jìn)行力自適應(yīng)抓取

這一成果標(biāo)志著靈巧操作技術(shù)在克服 Sim-to-Real 鴻溝方面取得了關(guān)鍵突破。通過提供一套無需昂貴力矩傳感器和高計算成本觸覺仿真的實(shí)用方案，該研究大幅降低了基于力的靈巧操作研究的門檻，為多指靈巧手在柔性制造、服務(wù)機(jī)器人等真實(shí)復(fù)雜場景中的廣泛應(yīng)用鋪平了道路。

參考文獻(xiàn)

[1] ByteDance Seed. Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexterous Force-Based Grasping and Manipulation. 2025.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.