![]()
實(shí)現(xiàn)具備人類水平的靈巧操作能力,是機(jī)器人學(xué)領(lǐng)域長期以來的核心挑戰(zhàn)之一。盡管多指靈巧手在硬件上具備了類似人類的潛力,但由于接觸豐富的物理特性和非理想的驅(qū)動機(jī)制,訓(xùn)練能夠直接部署在真實(shí)硬件上的控制策略仍然非常困難。
ByteDance Seed 團(tuán)隊(duì)最新的研究論文《Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexterous Force-Based Grasping and Manipulation》 [1],針對這一關(guān)鍵問題提出了實(shí)用的強(qiáng)化學(xué)習(xí)(RL) 框架。
該研究的核心貢獻(xiàn)在于提出了一套完整的 Sim-to-Real 解決方案,通過結(jié)合高密度的觸覺反饋和基于電機(jī)電流估算的關(guān)節(jié)力矩感知,顯式地調(diào)節(jié)物理交互過程。該框架不僅解決了高分辨率觸覺仿真的計算瓶頸,還通過數(shù)據(jù)驅(qū)動的執(zhí)行器建模消除了對昂貴力矩傳感器的依賴,最終實(shí)現(xiàn)了在純仿真環(huán)境中訓(xùn)練的策略。在仿真或訓(xùn)練環(huán)境中完成訓(xùn)練后,模型能夠在真實(shí)的五指靈巧手上實(shí)現(xiàn)零樣本(Zero-Shot) 部署,即無需額外的真實(shí)數(shù)據(jù)進(jìn)行微調(diào),便可直接在真實(shí)機(jī)器人上運(yùn)行。
![]()
Figure 1 :融合觸覺感知與關(guān)節(jié)力矩的全狀態(tài)策略框架
一、三大核心技術(shù):
打通從仿真到現(xiàn)實(shí)的感知與驅(qū)動鏈路
論文的核心問題在于如何克服仿真與現(xiàn)實(shí)之間在觸覺感知、接觸物理和執(zhí)行器動力學(xué)方面的巨大差異(Reality Gap),從而訓(xùn)練出能夠進(jìn)行力控抓取和靈巧操作的全狀態(tài)策略。
該研究構(gòu)建了一個由三大核心技術(shù)組成的完整體系,實(shí)現(xiàn)了從仿真訓(xùn)練到真實(shí)部署的無縫銜接。
1. 計算高效的觸覺仿真:高分辨率 + 高幀率,魚與熊掌兼得
高保真度的觸覺仿真是學(xué)習(xí)接觸豐富技能的長期障礙。傳統(tǒng)的有限元分析(FEM) 或軟體仿真計算成本過高,無法滿足強(qiáng)化學(xué)習(xí)對大規(guī)模并行和高幀率的需求。
該研究提出了一種基于距離場的快速觸覺仿真方法。通過并行正向運(yùn)動學(xué),計算密集的虛擬觸覺單元陣列與物體表面之間的距離。這種方法不僅能夠提供強(qiáng)化學(xué)習(xí)所需的高頻信號,還保留了關(guān)鍵的接觸信息(如接觸力大小和受力加權(quán)接觸中心)。這種設(shè)計在保證物理合理性的同時,極大地提升了仿真效率,使得策略能夠在仿真中充分探索復(fù)雜的接觸動力學(xué)。
Figure 2 :接觸點(diǎn)建模與材料屬性
通過對比仿真與真實(shí)世界中的接觸數(shù)據(jù)(如下圖所示),可以發(fā)現(xiàn)兩者在接觸點(diǎn)分布和接觸力大小上表現(xiàn)出高度的一致性,證明了該觸覺仿真方法的高保真度。
2. 電流-力矩校準(zhǔn):無需力矩傳感器,也能精準(zhǔn)力控
大多數(shù)商用靈巧手采用連桿或者腱繩等傳動結(jié)構(gòu),缺乏關(guān)節(jié)級的力矩傳感器,只能提供電機(jī)電流測量值。仿真中的理想力矩控制與真實(shí)電機(jī)的非理想特性之間存在巨大的現(xiàn)實(shí)鴻溝。
為了解決這一問題,研究團(tuán)隊(duì)引入了電流-力矩校準(zhǔn)機(jī)制。通過在準(zhǔn)靜態(tài)條件下擬合電機(jī)電流與接觸力、仿真力矩與接觸力之間的線性關(guān)系,建立了一個可靠的「電流到力矩」映射。這種數(shù)據(jù)驅(qū)動的校準(zhǔn)方法,使得策略在真實(shí)部署時,能夠?qū)⒆x取到的歸一化電流信號作為「關(guān)節(jié)力矩」輸入,從而在無需物理力矩傳感器的情況下,實(shí)現(xiàn)了對交互力的顯式感知和控制。
![]()
Figure 3 :真實(shí)世界電流-力與仿真力矩-力的校準(zhǔn)與對齊
3. 執(zhí)行器動力學(xué)建模與隨機(jī)化:顯著提高 Sim-to-Real 魯棒性
真實(shí)電機(jī)存在諸多非理想特性,如齒輪間隙(Backlash)、力矩-速度飽和(Torque-Speed Saturation) 以及摩擦力等。如果仿真中忽略這些特性,訓(xùn)練出的策略在真實(shí)硬件上往往會表現(xiàn)出脆弱性。
該研究在仿真中顯式地對這些執(zhí)行器動力學(xué)進(jìn)行了建模,并對關(guān)鍵參數(shù)(如堵轉(zhuǎn)力矩、空載速度、齒輪間隙閾值等) 進(jìn)行了廣泛的域隨機(jī)化(Domain Randomization)。這種策略迫使控制策略適應(yīng)各種硬件缺陷和公差變化,顯著提高了 Sim-to-Real 轉(zhuǎn)移的魯棒性。
二、全狀態(tài)策略與創(chuàng)新訓(xùn)練范式:
實(shí)現(xiàn)力控自適應(yīng)抓取與手內(nèi)物體旋轉(zhuǎn)
基于上述 Sim-to-Real 框架,研究團(tuán)隊(duì)成功訓(xùn)練并部署了兩種關(guān)鍵的靈巧操作技能:力控自適應(yīng)抓取(Force-Adaptive Grasping) 和手內(nèi)物體旋轉(zhuǎn)(In-Hand Object Reorientation)。
1. 倒置「接物」訓(xùn)練范式:提升樣本效率與魯棒性
傳統(tǒng)的桌面抓取訓(xùn)練范式往往面臨樣本效率低、獎勵工程復(fù)雜以及容易產(chǎn)生「獎勵黑客」(Reward Hacking) 行為等問題。為此,研究團(tuán)隊(duì)提出了一種創(chuàng)新的倒置「接物」(Inverted Catching) 訓(xùn)練設(shè)置。
在這種設(shè)置下,靈巧手手心向上固定,物體從上方隨機(jī)掉落。這種利用重力自然將物體引入工作空間的方法,極大地簡化了探索過程,使策略能夠?qū)W⒂趯W(xué)習(xí)手指協(xié)調(diào)和接觸后的力調(diào)節(jié)。同時,這種動態(tài)接物過程鼓勵形成包絡(luò)式、多點(diǎn)接觸的抓取姿態(tài),自然抑制了不穩(wěn)定的邊緣抓取策略,促使策略學(xué)習(xí)到更接近人類偏好的穩(wěn)定抓取方式。
2. 力自適應(yīng)抓取:精準(zhǔn)的力矩與接觸力控制
在力自適應(yīng)抓取任務(wù)中,策略需要根據(jù)用戶輸入的力指令(Force Command),動態(tài)調(diào)節(jié)各個手指的抓取力。
研究表明,結(jié)合接觸力懲罰(R-force) 和關(guān)節(jié)力矩懲罰(R-torque) 的復(fù)合獎勵函數(shù)是實(shí)現(xiàn)穩(wěn)健力控的關(guān)鍵。僅懲罰接觸力會導(dǎo)致關(guān)節(jié)力矩不足,抓取不穩(wěn);僅懲罰關(guān)節(jié)力矩則無法有效將力傳遞到指尖。兩者的結(jié)合使得策略能夠同時協(xié)調(diào)關(guān)節(jié)驅(qū)動和指尖接觸,實(shí)現(xiàn)與指令高度線性相關(guān)的精準(zhǔn)力控。
![]()
Figure 4 :不同獎勵設(shè)置下,關(guān)節(jié)力矩和接觸力隨力指令的變化
3. 手內(nèi)物體旋轉(zhuǎn):觸覺與本體感覺的深度融合
手內(nèi)旋轉(zhuǎn)任務(wù)要求策略通過協(xié)調(diào)的手指步態(tài)(Finger Gaits),在保持穩(wěn)定接觸的同時,將物體繞指定軸旋轉(zhuǎn)。
消融實(shí)驗(yàn)(Ablation Study) 深刻揭示了不同感知模態(tài)的重要性。結(jié)果顯示,包含受力加權(quán)接觸中心、接觸力和 6D 姿態(tài)表示的完整觀測配置取得了最佳性能(平均連續(xù)成功 25.1 次)。移除任何一種觸覺信息(接觸中心或接觸力) 都會導(dǎo)致性能顯著下降,而完全沒有觸覺反饋的基線策略幾乎無法完成任務(wù)(平均成功 1.1 次)。這充分證明了高分辨率觸覺反饋在復(fù)雜手內(nèi)操作中的不可替代性。
![]()
Figure 5 :真實(shí)世界與仿真環(huán)境中的手內(nèi)操作任務(wù)可視化結(jié)果
三、星動紀(jì)元五指靈巧手星動 XHAND1 :
DexManip 零樣本部署的硬件核心支撐
DexManip 框架之所以能夠?qū)崿F(xiàn)驚艷的零樣本(Zero-Shot) 部署,除了算法層面的創(chuàng)新,更離不開底層硬件——星動紀(jì)元自研國內(nèi)首創(chuàng)全直驅(qū)五指靈巧手——星動 XHAND1的強(qiáng)大支撐。該框架與 XHAND1 的硬件特性形成了完美的「軟硬協(xié)同」,在實(shí)際應(yīng)用場景中展現(xiàn)出不可替代的落地優(yōu)勢。
![]()
Figure 6 :星動 XHAND1 靈巧手
1. 270° 環(huán)繞指端高分辨率觸覺陣列:捕捉精細(xì)接觸,破解手內(nèi)操作感知瓶頸
DexManip 論文的消融實(shí)驗(yàn)明確指出,高分辨率的觸覺反饋(接觸中心與接觸力) 是實(shí)現(xiàn)手內(nèi)物體旋轉(zhuǎn)等復(fù)雜操作的決定性因素。星動 XHAND1 在每個手指端配備了270° 環(huán)繞的高分辨率觸覺陣列傳感器(單指 > 100 個觸覺點(diǎn))。相比于傳統(tǒng)的壓阻類平板型傳感器,這種全包絡(luò)的曲面陣列能夠無死角地捕捉物體在指尖滾動、滑動時的微小接觸變化。結(jié)合高精度的力覺精度和三維力觸覺感知能力,星動 XHAND1 為 DexManip 策略提供了極其豐富且精準(zhǔn)的觀測輸入,使其在處理不規(guī)則物體或執(zhí)行精細(xì)的「指尖步態(tài)(Finger Gaits)」時游刃有余。
2. 高精度 URDF 與觸覺仿真模型的無縫對接:精準(zhǔn)對接仿真,縮小現(xiàn)實(shí)鴻溝
DexManip 框架的核心突破在于其計算高效的基于距離場的觸覺仿真。這一算法的成功高度依賴于仿真模型與真實(shí)物理世界的一致性。星動 XHAND1 官方提供了極高精度的 URDF 模型,不僅精確描述了運(yùn)動學(xué)連桿和動力學(xué)參數(shù),還完美映射了真實(shí)傳感器的空間分布。這種「數(shù)字孿生」級別的模型支持,使得 DexManip 在仿真中計算的虛擬觸覺單元(Virtual Tactile Cells) 能夠與真實(shí)星動 XHAND1 的傳感器陣列實(shí)現(xiàn) 1:1 的精準(zhǔn)對齊,從而大幅降低了 Sim-to-Real 的現(xiàn)實(shí)鴻溝,確保了純仿真訓(xùn)練策略在真實(shí)硬件上的「開箱即用」。
3. 全直驅(qū)架構(gòu)與電流-力矩校準(zhǔn)的完美契合:實(shí)現(xiàn)精準(zhǔn)力控,響應(yīng)更靈敏
在力自適應(yīng)抓取任務(wù)中,DexManip 提出通過「電流-力矩校準(zhǔn)」來替代昂貴的物理力矩傳感器。星動 XHAND1 采用的全直驅(qū)(Direct-Drive) 電機(jī)架構(gòu)為這一算法提供了最理想的硬件基礎(chǔ)。全直驅(qū)設(shè)計從根本上消除了傳統(tǒng)減速器帶來的巨大摩擦、遲滯和非線性干擾,使得電機(jī)的相電流與輸出力矩之間保持著極高的線性相關(guān)性。這不僅讓 DexManip 的電流-力矩校準(zhǔn)過程更加精確可靠,還賦予了靈巧手極高的力控帶寬和超靈敏的動態(tài)響應(yīng)能力,使其能夠根據(jù) 10% 、50% 、100% 等不同指令,瞬間且精準(zhǔn)地調(diào)節(jié)抓取力度,安全地操作薯片、毛絨玩具等易碎或柔性物體。
Figure 7 :對訓(xùn)練中未見過的不規(guī)則形狀物體進(jìn)行力自適應(yīng)抓取
這一成果標(biāo)志著靈巧操作技術(shù)在克服 Sim-to-Real 鴻溝方面取得了關(guān)鍵突破。通過提供一套無需昂貴力矩傳感器和高計算成本觸覺仿真的實(shí)用方案,該研究大幅降低了基于力的靈巧操作研究的門檻,為多指靈巧手在柔性制造、服務(wù)機(jī)器人等真實(shí)復(fù)雜場景中的廣泛應(yīng)用鋪平了道路。
參考文獻(xiàn)
[1] ByteDance Seed. Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexterous Force-Based Grasping and Manipulation. 2025.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.