Choice Policy團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
在家庭廚房自主使用洗碗機(jī),在辦公室邊移動(dòng)邊擦拭白板——這些人類(lèi)習(xí)以為常的場(chǎng)景,對(duì)人形機(jī)器人來(lái)說(shuō),卻是需要調(diào)動(dòng)全身關(guān)節(jié)協(xié)同運(yùn)作才能完成的“高難度挑戰(zhàn)”
近日,UC Berkeley加州大學(xué)伯克利分校團(tuán)隊(duì)在arXiv平臺(tái)發(fā)表了題為《Coordinated Humanoid Manipulation with Choice Policies》的研究論文,通過(guò)“模塊化教學(xué)+智能選動(dòng)作”的創(chuàng)新方案,成功破解了人形機(jī)器人全身協(xié)同的核心難題,為其走進(jìn)真實(shí)人類(lèi)環(huán)境鋪平了道路。
![]()
阻礙人形機(jī)器人走進(jìn)日常生活的“兩大困境”
人形機(jī)器人一直被寄予厚望,有望在家庭、辦公等非結(jié)構(gòu)化環(huán)境中幫助人類(lèi)完成日常工作,但長(zhǎng)期以來(lái),兩個(gè)關(guān)鍵難題讓它始終無(wú)法突破“實(shí)驗(yàn)室邊界”,難以真正落地應(yīng)用:
難題1. 全身協(xié)同難,“教學(xué)數(shù)據(jù)”獲取貴且難
像使用洗碗機(jī)、移動(dòng)擦黑板這類(lèi)“長(zhǎng)時(shí)連續(xù)任務(wù)”,需要機(jī)器人同時(shí)協(xié)調(diào)頭部(定位目標(biāo))、雙手(抓握操作)、腿部(移動(dòng)平衡),實(shí)現(xiàn)類(lèi)似人類(lèi)“眼到手到、腳步穩(wěn)健”的狀態(tài)。
但傳統(tǒng)的“遙操作”模式,需要操作員同時(shí)控制機(jī)器人幾十個(gè)甚至上百個(gè)關(guān)節(jié),不僅操作難度極高,操作員極易疲勞,還很難收集到高質(zhì)量的演示數(shù)據(jù)——沒(méi)有靠譜的“老師示范”,機(jī)器人自然學(xué)不會(huì)復(fù)雜的協(xié)同動(dòng)作。
難題2. 動(dòng)作“靈活度”與“反應(yīng)速度”不可兼得
人類(lèi)做同一個(gè)動(dòng)作往往有多種可行方式(比如拿盤(pán)子,既可以五指托舉,也可以拇指扣住邊緣),這種“動(dòng)作多樣性”是機(jī)器人模仿人類(lèi)的關(guān)鍵難點(diǎn)。
傳統(tǒng)解決方案要么“太僵硬”:比如“行為克隆”技術(shù)只能讓機(jī)器人學(xué)一種固定動(dòng)作,遇到稍微變化的場(chǎng)景就會(huì)失靈;
要么“太遲鈍”:比如“擴(kuò)散策略”雖然能想到多種動(dòng)作,但需要反復(fù)計(jì)算,延遲極高,根本跟不上實(shí)時(shí)操作需求(比如插盤(pán)子時(shí)錯(cuò)過(guò)最佳對(duì)準(zhǔn)時(shí)機(jī))。
雙管齊下,用“模塊化教學(xué)+智能選動(dòng)作”破解困境
針對(duì)上述兩大難題,伯克利團(tuán)隊(duì)沒(méi)有走“復(fù)雜控制一刀切”的老路,而是提出了“模塊化簡(jiǎn)化教學(xué)+多候選智能選動(dòng)作”的組合方案,實(shí)現(xiàn)了“1+1>2”的效果:
1. 簡(jiǎn)化“教學(xué)”:模塊化遙操作,普通人10分鐘就能當(dāng)“機(jī)器人老師”
團(tuán)隊(duì)把機(jī)器人的全身控制拆分成4個(gè)“傻瓜式”模塊,操作員只需用VR手柄就能輕松操控,無(wú)需專(zhuān)業(yè)技能:
![]()
①手眼協(xié)調(diào)模塊:頭部會(huì)跟隨手部動(dòng)作轉(zhuǎn)動(dòng),確保眼睛始終盯著操作區(qū)域;
②手部抓握模塊:扣動(dòng)扳機(jī)鍵就能實(shí)現(xiàn)“力量抓握”,撥動(dòng)搖桿可微調(diào)拇指位置,精準(zhǔn)控制力度;
③手臂跟蹤模塊:VR手柄的姿態(tài)會(huì)直接映射到機(jī)器人手臂,手柄動(dòng)哪里,手臂就跟到哪里;
④全向移動(dòng)模塊:切換搖桿模式后,就能控制機(jī)器人前后、左右移動(dòng)或轉(zhuǎn)彎。
這種設(shè)計(jì)大幅降低了操作門(mén)檻,操作員10分鐘就能上手,既能減少疲勞,又能快速收集大量高質(zhì)量演示數(shù)據(jù)——相當(dāng)于為機(jī)器人配備了高效的“專(zhuān)屬家教”,讓它不再盲目模仿。
2. 優(yōu)化“決策”:Choice Policy算法,讓機(jī)器人“秒選最優(yōu)動(dòng)作”
團(tuán)隊(duì)摒棄了傳統(tǒng)方案的弊端,設(shè)計(jì)了“多候選動(dòng)作生成+實(shí)時(shí)打分篩選”的機(jī)制:機(jī)器人會(huì)一次性生成多個(gè)可行的動(dòng)作方案(比如拿盤(pán)子的3種不同姿勢(shì)),再通過(guò)訓(xùn)練好的模型給每個(gè)方案打分,瞬間選出最優(yōu)解。
這個(gè)過(guò)程就像人類(lèi)做決定時(shí)“腦子里快速過(guò)幾個(gè)選項(xiàng),挑最穩(wěn)妥的來(lái)”,既保留了動(dòng)作的多樣性,又保證了反應(yīng)速度,完美解決了“僵硬”與“遲鈍”的核心矛盾。
![]()
研究方法:算法與硬件雙向協(xié)同,星動(dòng)紀(jì)元人形機(jī)器人成關(guān)鍵支撐
這項(xiàng)研究的成功,離不開(kāi)算法創(chuàng)新與硬件性能的深度配合。而星動(dòng)紀(jì)元全尺寸雙足人形機(jī)器人星動(dòng)STAR1的硬件優(yōu)勢(shì),恰好為算法落地提供了“強(qiáng)力支撐”,讓“模塊化教學(xué)”和“多候選決策”真正發(fā)揮作用:
![]()
1. 超高自由度+精準(zhǔn)操控,適配手部與手臂模塊需求
星動(dòng)STAR1搭載2只星動(dòng)XHAND1手部,每只手有12個(gè)全主動(dòng)驅(qū)動(dòng)自由度,且無(wú)被動(dòng)關(guān)節(jié)——這意味著手指能做出更精細(xì)、靈活的動(dòng)作,完美匹配“手部抓握模塊”的需求。
當(dāng)操作員通過(guò)手柄觸發(fā)“力量抓握”時(shí),機(jī)器人手指能像人類(lèi)一樣精準(zhǔn)調(diào)節(jié)力度,既不會(huì)夾碎盤(pán)子,也不會(huì)讓橡皮滑落;同時(shí),其仿生手臂7個(gè)自由度的高剛性設(shè)計(jì),能快速響應(yīng)“手臂跟蹤”指令,避免因硬件卡頓導(dǎo)致操作失誤,確保模塊指令精準(zhǔn)落地。
2. 全向移動(dòng)+穩(wěn)定平衡,支撐移動(dòng)操作任務(wù)
像移動(dòng)擦黑板這類(lèi)“邊走邊干”的任務(wù),對(duì)機(jī)器人腿部性能要求極高。星動(dòng)STAR1每只腿有6個(gè)自由度,支持全向移動(dòng)(前后、左右、轉(zhuǎn)彎),剛好適配遙操作的“移動(dòng)模塊”;
更關(guān)鍵的是,它內(nèi)置姿態(tài)傳感器和低層級(jí)PD控制器,能實(shí)時(shí)調(diào)整腿部關(guān)節(jié)力度,就像人類(lèi)走路時(shí)自然調(diào)整重心一樣,讓機(jī)器人在移動(dòng)中保持穩(wěn)定——這也是論文中“移動(dòng)與操作深度融合”能實(shí)現(xiàn)的核心硬件基礎(chǔ)。
3. 多傳感器融合,賦能手眼協(xié)調(diào)模塊
手眼協(xié)調(diào)是長(zhǎng)時(shí)任務(wù)成功的關(guān)鍵,而這需要精準(zhǔn)的視覺(jué)反饋。
星動(dòng)紀(jì)元全尺寸雙足人形機(jī)器人頭部搭載RGB+深度相機(jī),能快速捕捉目標(biāo)位置(比如洗碗機(jī)卡槽、白板污漬),并將視覺(jué)信息同步給手部操作模塊,實(shí)現(xiàn)“眼睛看到哪里,手就對(duì)準(zhǔn)哪里”。
論文數(shù)據(jù)顯示,沒(méi)有手眼協(xié)調(diào)時(shí),洗碗機(jī)卡槽容易被遮擋,機(jī)器人“看不見(jiàn)就插不準(zhǔn)”;而STAR1的高清視覺(jué)傳感器配合頭部2個(gè)自由度的靈活轉(zhuǎn)動(dòng),能讓卡槽始終保持可見(jiàn),大幅提升操作成功率。
4. 高魯棒性設(shè)計(jì),保障實(shí)驗(yàn)順利推進(jìn)
研究需要通過(guò)10次連續(xù)試驗(yàn)驗(yàn)證穩(wěn)定性,而星動(dòng)人形機(jī)器人星動(dòng)STAR1的55個(gè)驅(qū)動(dòng)自由度(頭部2+腰部3+手臂7×2+腿部6×2+手部12×2)提供了充足的運(yùn)動(dòng)冗余,再加上抗干擾的硬件設(shè)計(jì),能有效減少硬件故障、網(wǎng)絡(luò)超時(shí)等問(wèn)題,確保高質(zhì)量演示數(shù)據(jù)的持續(xù)收集——這也是論文能公平對(duì)比三種算法、凸顯Choice Policy優(yōu)勢(shì)的重要前提。
![]()
碾壓傳統(tǒng)方案,手眼協(xié)調(diào)是關(guān)鍵
團(tuán)隊(duì)在兩個(gè)真實(shí)場(chǎng)景中開(kāi)展了大量實(shí)驗(yàn),結(jié)果直觀證明了新方案的優(yōu)勢(shì),其中手眼協(xié)調(diào)和Choice Policy算法成為“勝負(fù)手”:
1. 核心任務(wù):洗碗機(jī)裝載(10次連續(xù)試驗(yàn))
這是考驗(yàn)“頭-手協(xié)同”的關(guān)鍵任務(wù),需要完成“滑動(dòng)盤(pán)子→抓取→手遞手→插入卡槽”四個(gè)步驟,任意一步失敗即判定任務(wù)失敗:
無(wú)手眼協(xié)調(diào)時(shí):所有方法在“插入”階段幾乎全敗,成功率僅10%-20%,核心原因是卡槽被遮擋,機(jī)器人“看不見(jiàn)插哪里”;
有手眼協(xié)調(diào)時(shí):Choice Policy表現(xiàn)一枝獨(dú)秀——抓取成功率100%、手遞手成功率90%、插入成功率70%;而傳統(tǒng)“行為克隆”插入成功率僅50%,“擴(kuò)散策略”因延遲高,插入成功率也只有50%。
![]()
![]()
2. 進(jìn)階任務(wù):擦白板操作(5次連續(xù)試驗(yàn))
這是更復(fù)雜的“走+干”協(xié)同任務(wù),需要完成“頭部找橡皮→抓取→走到白板前→擦拭”流程,對(duì)全身協(xié)同要求極高:
傳統(tǒng)“行為克隆”:抓取、走路、擦拭成功率均僅20%,經(jīng)常因走路失衡、定位不準(zhǔn)導(dǎo)致任務(wù)中斷;
Choice Policy:抓取、走路、擦拭成功率均達(dá)到40%,雖然整體仍有提升空間,但已是傳統(tǒng)方法的2倍,充分展現(xiàn)了“移動(dòng)與操作深度融合”的能力。
![]()
3. 三大關(guān)鍵發(fā)現(xiàn)
手眼協(xié)調(diào)是長(zhǎng)時(shí)任務(wù)的核心:沒(méi)有它,哪怕手部、腿部單獨(dú)操作再精準(zhǔn),也會(huì)因“看不準(zhǔn)”導(dǎo)致整體失敗;
Choice Policy的“打分機(jī)制”是核心優(yōu)勢(shì):消融實(shí)驗(yàn)顯示,若隨機(jī)選動(dòng)作、平均動(dòng)作或固定一個(gè)動(dòng)作,插入成功率最高僅30%,而“打分選最優(yōu)”能達(dá)到70%,證明智能選擇的必要性;
硬件冗余不可少:星動(dòng)紀(jì)元人形機(jī)器人星動(dòng)STAR1的55個(gè)驅(qū)動(dòng)自由度讓機(jī)器人能靈活調(diào)整動(dòng)作,適配不同候選方案,而低延遲特性則保障了“實(shí)時(shí)選動(dòng)作”的優(yōu)勢(shì)。
![]()
推動(dòng)人形機(jī)器人從“實(shí)驗(yàn)室”走向“真實(shí)生活”
這項(xiàng)研究不僅是算法層面的突破,更給人形機(jī)器人產(chǎn)業(yè)化帶來(lái)了三大核心落地價(jià)值,加速其走進(jìn)日常生活:
1. 降低“教學(xué)成本”,普通人也能教機(jī)器人干活
模塊化遙操作讓非專(zhuān)業(yè)人員10分鐘就能上手教機(jī)器人,無(wú)需依賴(lài)昂貴的專(zhuān)業(yè)工程師,大幅降低了高質(zhì)量演示數(shù)據(jù)的收集成本。這意味著機(jī)器人的“學(xué)習(xí)素材”會(huì)越來(lái)越多,訓(xùn)練效率也會(huì)隨之翻倍。
2. 破解落地痛點(diǎn),適配真實(shí)非結(jié)構(gòu)化環(huán)境
Choice Policy解決了“動(dòng)作僵硬”與“反應(yīng)遲鈍”的矛盾,再加上星動(dòng)STAR1這類(lèi)高自由度硬件的支撐,機(jī)器人能在家庭(裝洗碗機(jī)、疊衣服)、辦公(擦白板、整理文件)、倉(cāng)儲(chǔ)(搬運(yùn)貨物)等復(fù)雜環(huán)境中穩(wěn)健工作,徹底擺脫對(duì)實(shí)驗(yàn)室“理想場(chǎng)景”的依賴(lài)。
3. 搭建“軟硬協(xié)同”范式,為行業(yè)提供可復(fù)制模板
研究證明了“模塊化遙操作(數(shù)據(jù)收集)+ Choice Policy(算法學(xué)習(xí))+ 高自由度硬件(執(zhí)行)”的組合方案完全可行,為后續(xù)人形機(jī)器人研發(fā)提供了清晰的技術(shù)模板。
尤其是星動(dòng)STAR1的硬件設(shè)計(jì),驗(yàn)證了“多自由度+精準(zhǔn)控制+穩(wěn)定移動(dòng)”是復(fù)雜任務(wù)落地的關(guān)鍵,給硬件廠(chǎng)商指明了優(yōu)化方向。
4. 提升魯棒性,應(yīng)對(duì)真實(shí)環(huán)境的不確定性
在“未見(jiàn)過(guò)的盤(pán)子顏色”“盤(pán)子位置偏移”等超出訓(xùn)練范圍的場(chǎng)景中,Choice Policy的成功率仍高于傳統(tǒng)方法,說(shuō)明機(jī)器人能應(yīng)對(duì)真實(shí)環(huán)境的變化——這正是從“實(shí)驗(yàn)室原型”走向“實(shí)用產(chǎn)品”的核心門(mén)檻。
未來(lái),隨著這套技術(shù)框架的進(jìn)一步優(yōu)化,人形機(jī)器人走進(jìn)日常生活的場(chǎng)景或許很快就能實(shí)現(xiàn):下班回家,機(jī)器人已經(jīng)把餐具整齊裝進(jìn)洗碗機(jī);走進(jìn)辦公室,白板上的殘留字跡早已被機(jī)器人擦拭干凈。
![]()
論文名稱(chēng):
《Coordinated Humanoid Manipulation with Choice Policies》
論文地址:
https://arxiv.org/pdf/2512.25072
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.