在人形機(jī)器人領(lǐng)域,數(shù)據(jù)驅(qū)動(dòng)的革命雖已到來(lái),卻始終受困于高效的數(shù)據(jù)采集框架。現(xiàn)有系統(tǒng)要么依賴(lài)昂貴且笨重的動(dòng)作捕捉(MoCap)設(shè)備,要么犧牲全身控制能力換取便攜性,難以實(shí)現(xiàn)規(guī)模化、高靈活性的開(kāi)發(fā)。
![]()
近日,來(lái)自亞馬遜FAR、斯坦福大學(xué)、加州大學(xué)伯克利分校等機(jī)構(gòu)的團(tuán)隊(duì)提出了TWIST2,這是一套兼具便攜性、可擴(kuò)展性和全身體控能力的人形機(jī)器人遙操作與數(shù)據(jù)采集系統(tǒng)。它不僅打破了動(dòng)捕設(shè)備的束縛,還能讓機(jī)器人自主完成折紙、踢箱子等復(fù)雜任務(wù),目前相關(guān)研究成果已開(kāi)源。
▍告別動(dòng)捕,1分鐘部署的全身控制方案
傳統(tǒng)人形機(jī)器人遙操作系統(tǒng)陷入兩難:要么像TWIST等方案那樣,依賴(lài)專(zhuān)業(yè)動(dòng)捕實(shí)驗(yàn)室實(shí)現(xiàn)全身控制,卻無(wú)法便攜部署;要么像AMO、CLONE等VR-based方案那樣追求便攜,卻只能實(shí)現(xiàn)局部身體控制,難以完成復(fù)雜協(xié)調(diào)任務(wù)。
![]()
人形機(jī)器人數(shù)據(jù)采集系統(tǒng)對(duì)比
TWIST2的核心創(chuàng)新是“無(wú)動(dòng)捕+全身體控”的深度融合,關(guān)鍵在于三大核心組件:
![]()
TWIST2系統(tǒng)概述
1. 低成本可拆裝頸部:實(shí)現(xiàn)第一視角自主觀察
團(tuán)隊(duì)設(shè)計(jì)了一款僅需250美元的2自由度(俯仰+偏航)頸部模塊(TWIST2 Neck),可直接加裝在Unitree G1機(jī)器人上,無(wú)需拆卸原有頭部結(jié)構(gòu)。搭配400美元的Zed Mini立體相機(jī),機(jī)器人能獲得與人眼類(lèi)似的第一視角(egocentric)視覺(jué)能力,靈活調(diào)整觀察角度,這解決了固定相機(jī)視野受限的問(wèn)題,是完成長(zhǎng)時(shí)任務(wù)的關(guān)鍵。
![]()
TWIST2頸部模塊(TWIST2 Neck)
![]()
MuJoCo中的TWIST2頸部模塊(TWIST2 Neck in MuJoCo)
更關(guān)鍵的是,團(tuán)隊(duì)還為該頸部模塊開(kāi)發(fā)了MuJoCo仿真模型,方便研究者在虛擬環(huán)境中快速驗(yàn)證算法。
2. 便攜VR動(dòng)捕方案:1000美元搞定全身動(dòng)作采集
不同于動(dòng)輒數(shù)十萬(wàn)美元的光學(xué)動(dòng)捕系統(tǒng),TWIST2采用PICO 4U VR設(shè)備+2個(gè)腿部運(yùn)動(dòng)追蹤器的組合,整套硬件成本僅約1000美元。這套設(shè)備無(wú)需復(fù)雜校準(zhǔn),從開(kāi)箱到完成部署僅需1分鐘,能以100Hz的頻率實(shí)時(shí)捕捉人體全身動(dòng)作,包括軀干、四肢的姿態(tài)變化。
![]()
通過(guò)機(jī)器人頸部模擬人類(lèi)頸部動(dòng)作:研究團(tuán)隊(duì)發(fā)現(xiàn),一款具備兩個(gè)自由度(偏航角yaw與俯仰角pitch)的頸部模塊,便足以模擬人類(lèi)頸部的主要運(yùn)動(dòng)方式。
相比波士頓動(dòng)力使用的HTC Vive Tracker,PICO方案無(wú)需額外第三方攝像頭,靈活性更強(qiáng),更適合“隨時(shí)隨地”的數(shù)據(jù)采集。
3. 精準(zhǔn)動(dòng)作重定向:從人類(lèi)動(dòng)作到機(jī)器人的無(wú)縫映射
捕捉到人類(lèi)動(dòng)作后,如何讓機(jī)器人精準(zhǔn)復(fù)現(xiàn)?TWIST2優(yōu)化了基于GMR的動(dòng)作重定向算法,針對(duì)VR動(dòng)捕的特點(diǎn)做了關(guān)鍵改進(jìn):
![]()
VR人體至機(jī)器人連桿的映射
- 下半身:同時(shí)優(yōu)化位置和旋轉(zhuǎn)約束,減少機(jī)器人腳部滑動(dòng);
- 上半身:僅優(yōu)化旋轉(zhuǎn)約束,避免全局姿態(tài)跳躍(如teleport 操作)帶來(lái)的動(dòng)作失真;
- 手部:將人類(lèi)五指動(dòng)作簡(jiǎn)化為“開(kāi)合”控制,適配Unitree Dex31三指手,通過(guò)VR手柄按鈕即可靈活控制抓取力度;
- 頸部:通過(guò)計(jì)算人類(lèi)頭部與脊柱的相對(duì)旋轉(zhuǎn),映射為機(jī)器人頸部的俯仰和偏航角度,實(shí)現(xiàn)視覺(jué)跟隨。
▍高效數(shù)據(jù)采集:20分鐘搞定100次成功演示
數(shù)據(jù)采集效率是制約人形機(jī)器人研究的核心瓶頸之一。TWIST2通過(guò)“單人操作+低延遲+智能過(guò)濾”,實(shí)現(xiàn)了規(guī)模化數(shù)據(jù)采集:
以往系統(tǒng)要么需要兩人分工控制上下身,要么需要專(zhuān)人負(fù)責(zé)啟停。TWIST2將PICO手柄設(shè)計(jì)為控制中心,操作員可獨(dú)立完成任務(wù)啟動(dòng)、暫停、終止等所有操作。暫停時(shí)系統(tǒng)會(huì)自動(dòng)插值過(guò)渡動(dòng)作,避免機(jī)器人姿態(tài)突變,保障長(zhǎng)時(shí)間安全運(yùn)行。
整套系統(tǒng)的數(shù)據(jù)流頻率均高于50Hz,總延遲低于0.1秒(遠(yuǎn)優(yōu)于前代TWIST的0.5秒)。操作員通過(guò)PICO頭顯接收機(jī)器人的第一視角立體畫(huà)面,能清晰感知深度信息,輕松完成精細(xì)操作。
![]()
基于PICO手柄的TWIST2單人操控系統(tǒng)及安全控制說(shuō)明
實(shí)驗(yàn)顯示,熟練操作員使用TWIST2,20分鐘內(nèi)可完成:
- 98次成功的雙手抓取放置任務(wù),平均每次僅需11秒,成功率100%;
- 46次成功的移動(dòng)抓取任務(wù)(如開(kāi)門(mén)運(yùn)物),平均每次25秒,成功率100%。
![]()
此外,用戶(hù)研究還證明了核心組件的必要性:移除立體視覺(jué)會(huì)導(dǎo)致抓取位置偏差,移除頸部模塊會(huì)限制視野,而放棄第一視角則無(wú)法完成遠(yuǎn)程移動(dòng)任務(wù)。
▍自主控制能力:基于視覺(jué)的全身自主決策
在成功采集高質(zhì)量數(shù)據(jù)的基礎(chǔ)上,團(tuán)隊(duì)進(jìn)一步提出了分層視覺(jué)運(yùn)動(dòng)策略框架,讓機(jī)器人徹底擺脫人類(lèi)遙控,實(shí)現(xiàn)自主任務(wù)執(zhí)行。這一框架采用清晰的分層控制架構(gòu),其中底層控制器是基于強(qiáng)化學(xué)習(xí)訓(xùn)練的通用運(yùn)動(dòng)追蹤器,它會(huì)接收參考動(dòng)作指令(如身體關(guān)節(jié)位置、基座速度)以及機(jī)器人自身的本體感覺(jué)數(shù)據(jù)(包括IMU和關(guān)節(jié)編碼器數(shù)據(jù)),經(jīng)過(guò)處理后輸出關(guān)節(jié)目標(biāo)位置,再通過(guò)PD控制器生成扭矩來(lái)驅(qū)動(dòng)機(jī)器人運(yùn)動(dòng);高層控制器則是基于擴(kuò)散模型(Diffusion Policy)的視覺(jué)運(yùn)動(dòng)策略,它以機(jī)器人的第一視角圖像和歷史指令序列作為輸入,能夠直接預(yù)測(cè)未來(lái)2秒內(nèi)的全身動(dòng)作指令,并將其傳遞給底層控制器執(zhí)行。
![]()
基于TWIST2的分層全身視覺(jué)運(yùn)動(dòng)策略學(xué)習(xí)框架
經(jīng)過(guò)充分的數(shù)據(jù)訓(xùn)練后,搭載該框架的機(jī)器人成功自主完成了兩項(xiàng)復(fù)雜任務(wù),充分驗(yàn)證了其自主控制能力。
![]()
WB-Dex(全身靈巧抓取放置)與Kick-T(T型箱踢擊)任務(wù)訓(xùn)練演示的可視化呈現(xiàn)(包含機(jī)器人第一視角畫(huà)面及全身關(guān)節(jié)位置數(shù)據(jù))。
在全身靈巧抓取放置(WB-Dex)任務(wù)中,機(jī)器人能夠彎腰從貨架上拿起杯子,并精準(zhǔn)放入地面的箱子里,在54次嘗試中,49次成功到達(dá)目標(biāo)位置,33次完整完成抓取放置動(dòng)作,這一過(guò)程的核心難點(diǎn)在于對(duì)輕質(zhì)物體的高精度抓取控制。
![]()
WB-Dex任務(wù)的成功與失敗案例說(shuō)明
而在T型箱踢擊(Kick-T)任務(wù)中,機(jī)器人用左腳將T型箱踢向目標(biāo)區(qū)域后,還能及時(shí)上前右腳保持身體平衡,7次嘗試中有6次成功,動(dòng)作連貫且穩(wěn)定,展現(xiàn)出出色的動(dòng)態(tài)平衡能力與目標(biāo)導(dǎo)向的動(dòng)作協(xié)調(diào)能力。
值得注意的是,這是首個(gè)基于視覺(jué)實(shí)現(xiàn)人形機(jī)器人全身自主控制的框架,無(wú)需依賴(lài)簡(jiǎn)化的速度指令,可直接實(shí)現(xiàn)關(guān)節(jié)級(jí)別的精準(zhǔn)控制。
▍結(jié)語(yǔ):為人形機(jī)器人研究“降本增效”
TWIST2的核心價(jià)值,在于打破了“高質(zhì)量人形機(jī)器人研究依賴(lài)昂貴設(shè)備”的壁壘。僅需約1650美元(VR設(shè)備+頸部+相機(jī)),就能搭建一套完整的全身遙操作與數(shù)據(jù)采集系統(tǒng),20分鐘即可完成上百次有效演示,還能訓(xùn)練出自主執(zhí)行復(fù)雜任務(wù)的視覺(jué)運(yùn)動(dòng)策略。
![]()
目前研究團(tuán)隊(duì)已成功制造出3個(gè)TWIST2頸部模塊,該頸部模塊不僅易于組裝,還可普及至科研領(lǐng)域供相關(guān)研究使用。隨著系統(tǒng)、數(shù)據(jù)和模型的全面開(kāi)源,TWIST2有望成為人形機(jī)器人研究的“基礎(chǔ)設(shè)施”,讓更多研究者聚焦于算法創(chuàng)新而非設(shè)備搭建,加速人形機(jī)器人走向通用化的進(jìn)程。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.