<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      迪士尼研究院教機(jī)器人優(yōu)雅摔倒:當(dāng)失控變成一門(mén)藝術(shù)

      0
      分享至


      體操運(yùn)動(dòng)員在空中翻騰時(shí),即使知道自己可能失誤,也會(huì)本能地調(diào)整身體姿態(tài),用最安全的方式著陸。然而當(dāng)我們看到機(jī)器人摔倒時(shí),情況卻截然不同——它們往往像木頭人一樣僵硬地倒下,摔得七零八落。迪士尼研究院的科學(xué)家們決定改變這一現(xiàn)狀,他們沒(méi)有繼續(xù)研究如何讓機(jī)器人永不摔倒,而是反其道而行之:既然摔倒不可避免,為什么不教會(huì)機(jī)器人像體操運(yùn)動(dòng)員那樣,把每一次跌倒都變成一場(chǎng)優(yōu)雅的表演呢?

      雙足機(jī)器人面臨的挑戰(zhàn)就像是讓一個(gè)人用兩根筷子支撐一個(gè)保齡球。它們需要在一個(gè)相對(duì)狹小的支撐面上控制沉重的身體,稍有不慎就會(huì)失去平衡。雖然最新的強(qiáng)化學(xué)習(xí)技術(shù)已經(jīng)讓機(jī)器人的運(yùn)動(dòng)控制能力大幅提升,但在復(fù)雜多變的真實(shí)環(huán)境中,跌倒仍然是一個(gè)無(wú)法完全避免的風(fēng)險(xiǎn)。當(dāng)機(jī)器人被推向性能極限時(shí),就像人類運(yùn)動(dòng)員一樣,總會(huì)遇到某些干擾或條件導(dǎo)致它們摔倒。但與人類不同的是,機(jī)器人通常會(huì)以一種毫無(wú)章法、完全失控的方式摔倒,既無(wú)法保護(hù)自己的精密部件,也破壞了原本流暢自然的動(dòng)作美感。

      傳統(tǒng)的解決方案主要集中在提高控制器的魯棒性上,比如在訓(xùn)練中加入各種隨機(jī)干擾,在優(yōu)化算法中增加安全約束,或者干脆限制機(jī)器人的運(yùn)動(dòng)能力范圍。這些方法確實(shí)能在一定程度上提高穩(wěn)定性,但它們都無(wú)法真正保證機(jī)器人在實(shí)際應(yīng)用中不會(huì)摔倒,而且可能會(huì)嚴(yán)重限制機(jī)器人的性能和能力。研究團(tuán)隊(duì)認(rèn)為,與其不惜一切代價(jià)地防止跌倒,不如擁抱跌倒的可能性,讓用戶能夠控制機(jī)器人的最終姿勢(shì),既能實(shí)現(xiàn)藝術(shù)化的表現(xiàn),又便于后續(xù)的恢復(fù)動(dòng)作。

      跌倒是一個(gè)極具挑戰(zhàn)性的問(wèn)題。當(dāng)機(jī)器人開(kāi)始失去平衡時(shí),它只有非常短暫的時(shí)間窗口來(lái)做出反應(yīng),而且需要在這個(gè)過(guò)程中完成復(fù)雜的接觸操作。更棘手的是,機(jī)器人需要同時(shí)兼顧多個(gè)相互競(jìng)爭(zhēng)的目標(biāo):減少?zèng)_擊力、保護(hù)關(guān)鍵部件,以及實(shí)現(xiàn)期望的運(yùn)動(dòng)特征。這就像是讓一個(gè)正在摔倒的體操運(yùn)動(dòng)員,在空中既要保護(hù)頭部,又要調(diào)整姿勢(shì)以便完美著陸,還要確保動(dòng)作優(yōu)美流暢,難度可想而知。

      現(xiàn)有的機(jī)器人跌倒研究大多只關(guān)注單一目標(biāo)或特定場(chǎng)景。一旦檢測(cè)到即將摔倒,常見(jiàn)的策略要么是用高增益凍結(jié)所有關(guān)節(jié),要么是用低增益實(shí)現(xiàn)柔順?lè)磻?yīng)。然而這兩種方法對(duì)最終動(dòng)作的控制能力都很有限,而且會(huì)產(chǎn)生很大的沖擊力。更復(fù)雜的解決方案通常依賴于人工設(shè)計(jì)的跌倒策略,比如執(zhí)行預(yù)定義的跌倒動(dòng)作,或者跟蹤預(yù)設(shè)的接觸順序。雖然最近有研究將這一思路擴(kuò)展到自適應(yīng)接觸順序,但仍然局限于單一的跌倒方向,或者需要針對(duì)特定跌倒場(chǎng)景(如向前摔或向后摔)進(jìn)行人工調(diào)整。

      相比之下,這項(xiàng)研究不僅能夠減少整體沖擊力,還能提供精細(xì)的用戶控制。通過(guò)指定需要保護(hù)的關(guān)鍵部件和期望達(dá)到的最終姿勢(shì),用戶可以實(shí)現(xiàn)對(duì)機(jī)器人跌倒過(guò)程的全方位掌控。這種能力可以用于藝術(shù)表現(xiàn),正如研究中展示的那樣,也可以作為后續(xù)恢復(fù)策略的起始姿勢(shì)。研究團(tuán)隊(duì)提出的強(qiáng)化學(xué)習(xí)解決方案能夠在損傷減少和姿勢(shì)目標(biāo)之間實(shí)現(xiàn)可調(diào)整的權(quán)衡。

      讓機(jī)器人學(xué)會(huì)摔倒的秘訣

      整個(gè)訓(xùn)練過(guò)程就像是在教一個(gè)體操運(yùn)動(dòng)員學(xué)習(xí)各種落地技巧。研究團(tuán)隊(duì)使用了強(qiáng)化學(xué)習(xí)這個(gè)強(qiáng)大的工具,它的工作原理類似于訓(xùn)練一只寵物——通過(guò)獎(jiǎng)勵(lì)和懲罰來(lái)引導(dǎo)行為。但與訓(xùn)練寵物不同的是,他們需要在虛擬環(huán)境中同時(shí)訓(xùn)練成千上萬(wàn)個(gè)"機(jī)器人學(xué)員",讓它們?cè)跓o(wú)數(shù)次摔倒中逐漸掌握技巧。

      訓(xùn)練系統(tǒng)的核心是一套精心設(shè)計(jì)的獎(jiǎng)勵(lì)機(jī)制。當(dāng)機(jī)器人在摔倒過(guò)程中成功減少了沖擊力時(shí),它會(huì)獲得獎(jiǎng)勵(lì);當(dāng)它的最終姿勢(shì)接近目標(biāo)時(shí),也會(huì)得到獎(jiǎng)勵(lì)。這就像是體操教練在評(píng)判運(yùn)動(dòng)員的表現(xiàn)——既要看落地是否輕盈,又要看姿勢(shì)是否到位。但這里有一個(gè)巧妙的設(shè)計(jì):獎(jiǎng)勵(lì)的權(quán)重會(huì)隨時(shí)間變化。在摔倒的初期,系統(tǒng)更關(guān)注如何減少?zèng)_擊力,就像運(yùn)動(dòng)員首先要確保安全著陸;隨著時(shí)間推移,系統(tǒng)會(huì)逐漸增加對(duì)姿勢(shì)準(zhǔn)確性的關(guān)注,就像運(yùn)動(dòng)員在確保安全后才開(kāi)始追求動(dòng)作的完美。

      為了讓機(jī)器人能夠應(yīng)對(duì)各種各樣的跌倒情況,研究團(tuán)隊(duì)開(kāi)發(fā)了一套物理模擬驅(qū)動(dòng)的姿勢(shì)采樣策略。他們?cè)谔摂M環(huán)境中生成了大量可行的最終姿勢(shì)——機(jī)器人可能躺在背上,也可能側(cè)臥,或者以各種奇特的姿勢(shì)靜止。這個(gè)過(guò)程類似于讓體操運(yùn)動(dòng)員練習(xí)所有可能的落地姿勢(shì),從最常見(jiàn)的到最罕見(jiàn)的,確保他們能夠應(yīng)對(duì)任何突發(fā)情況。

      具體來(lái)說(shuō),系統(tǒng)首先會(huì)隨機(jī)生成各種關(guān)節(jié)配置,篩選掉那些會(huì)導(dǎo)致機(jī)器人自身部件相互碰撞的姿勢(shì)。然后,它會(huì)將機(jī)器人在虛擬環(huán)境中旋轉(zhuǎn)到各個(gè)方向,從略高于地面的位置釋放,讓它在關(guān)節(jié)凍結(jié)的狀態(tài)下自然落下。當(dāng)機(jī)器人靜止后,如果這個(gè)姿勢(shì)是穩(wěn)定的,就會(huì)被記錄下來(lái)作為一個(gè)可能的目標(biāo)姿勢(shì)。這個(gè)過(guò)程利用了GPU加速的物理模擬技術(shù),可以快速生成大量符合物理規(guī)律的姿勢(shì)樣本。

      為了確保訓(xùn)練的全面性,研究團(tuán)隊(duì)還特別注意了姿勢(shì)分布的均衡性。某些姿勢(shì)(比如背部著地)在自然落體過(guò)程中可能更容易出現(xiàn),而其他姿勢(shì)(比如側(cè)身著地)則相對(duì)少見(jiàn)。為了避免訓(xùn)練數(shù)據(jù)出現(xiàn)偏差,系統(tǒng)會(huì)迭代采樣新姿勢(shì),同時(shí)剔除那些已經(jīng)有足夠代表性的姿勢(shì)類型,確保各種朝向的姿勢(shì)都能得到充分覆蓋。

      在訓(xùn)練開(kāi)始時(shí),每一輪練習(xí)都會(huì)從不同的初始條件開(kāi)始。系統(tǒng)會(huì)隨機(jī)設(shè)置機(jī)器人的初始傾斜角度、旋轉(zhuǎn)速度和關(guān)節(jié)速度,模擬各種可能導(dǎo)致跌倒的不穩(wěn)定狀態(tài)。這就像是教練從各個(gè)方向推倒運(yùn)動(dòng)員,讓他們學(xué)會(huì)從任何失衡狀態(tài)中恢復(fù)并控制著陸。為了進(jìn)一步增加訓(xùn)練的多樣性,系統(tǒng)還會(huì)在訓(xùn)練過(guò)程中隨機(jī)施加外力,模擬真實(shí)世界中可能遇到的各種干擾。

      整個(gè)強(qiáng)化學(xué)習(xí)過(guò)程使用了PPO(近端策略優(yōu)化)算法,這是一種經(jīng)過(guò)驗(yàn)證的、穩(wěn)定高效的強(qiáng)化學(xué)習(xí)方法。訓(xùn)練在GPU加速的物理引擎上進(jìn)行,能夠同時(shí)運(yùn)行四千多個(gè)虛擬環(huán)境實(shí)例,讓數(shù)千個(gè)"虛擬機(jī)器人"并行學(xué)習(xí)。經(jīng)過(guò)大約48小時(shí)、75000次迭代的訓(xùn)練,機(jī)器人策略就能夠?qū)W會(huì)如何在各種跌倒情況下做出恰當(dāng)?shù)姆磻?yīng)。

      在沖擊力和優(yōu)雅之間找平衡

      獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)是整個(gè)系統(tǒng)的核心,它就像是一份詳細(xì)的評(píng)分標(biāo)準(zhǔn),告訴機(jī)器人什么是好的跌倒,什么是糟糕的跌倒。這份標(biāo)準(zhǔn)需要同時(shí)考慮多個(gè)方面,就像體操比賽的評(píng)分既要看技術(shù)動(dòng)作,又要看藝術(shù)表現(xiàn)。

      首先是沖擊力的懲罰機(jī)制。系統(tǒng)會(huì)實(shí)時(shí)監(jiān)測(cè)機(jī)器人身體各個(gè)部位承受的接觸力。當(dāng)某個(gè)部位受到撞擊時(shí),這個(gè)力會(huì)被乘以該部位的敏感度權(quán)重。頭部作為最脆弱的部位,被賦予了最高的權(quán)重4.0,肩膀的權(quán)重是3.0,肘部是2.0,而骨盆和腿部的權(quán)重是1.0。這意味著頭部受到的任何撞擊都會(huì)被放大四倍計(jì)入懲罰,促使機(jī)器人優(yōu)先保護(hù)這個(gè)關(guān)鍵部位。此外,系統(tǒng)還會(huì)懲罰機(jī)器人軀干的急劇加速度,因?yàn)榧词箾](méi)有直接接觸,劇烈的加速度變化本身也可能對(duì)內(nèi)部部件造成損害。

      姿勢(shì)跟蹤的獎(jiǎng)勵(lì)則更加微妙。系統(tǒng)會(huì)比較機(jī)器人的實(shí)際姿勢(shì)與目標(biāo)姿勢(shì),包括整體的朝向和各個(gè)關(guān)節(jié)的角度。但這里有一個(gè)巧妙的設(shè)計(jì):姿勢(shì)跟蹤的獎(jiǎng)勵(lì)不是一開(kāi)始就全力生效,而是通過(guò)一個(gè)時(shí)間相關(guān)的平滑函數(shù)逐漸增強(qiáng)。在跌倒的最初階段,這個(gè)獎(jiǎng)勵(lì)的權(quán)重接近零,讓機(jī)器人可以專注于減少?zèng)_擊;隨著時(shí)間推移,權(quán)重會(huì)平滑地增加到完整值,引導(dǎo)機(jī)器人逐漸調(diào)整到目標(biāo)姿勢(shì)。這個(gè)過(guò)渡過(guò)程使用了一個(gè)三次樣條函數(shù),確保從沖擊最小化到姿勢(shì)跟蹤的切換是平滑而自然的。

      除了這兩個(gè)主要目標(biāo),系統(tǒng)還加入了一些正則化獎(jiǎng)勵(lì)來(lái)鼓勵(lì)更流暢、更高效的動(dòng)作。比如,它會(huì)懲罰過(guò)大的關(guān)節(jié)扭矩,避免電機(jī)過(guò)度用力;會(huì)懲罰動(dòng)作的劇烈變化,鼓勵(lì)平滑的運(yùn)動(dòng)軌跡。這些正則化項(xiàng)雖然權(quán)重較小,但對(duì)于產(chǎn)生自然、高效的運(yùn)動(dòng)至關(guān)重要。最后,系統(tǒng)還加入了一個(gè)恒定的正向獎(jiǎng)勵(lì)作為基準(zhǔn),這是強(qiáng)化學(xué)習(xí)中的一個(gè)技巧,可以讓訓(xùn)練過(guò)程更加穩(wěn)定。

      所有這些獎(jiǎng)勵(lì)和懲罰項(xiàng)被精心加權(quán)和組合,形成了一個(gè)總體的獎(jiǎng)勵(lì)信號(hào)。機(jī)器人的學(xué)習(xí)目標(biāo)就是最大化這個(gè)總獎(jiǎng)勵(lì),從而在減少?zèng)_擊、達(dá)到目標(biāo)姿勢(shì)和保持動(dòng)作流暢之間找到最佳平衡點(diǎn)。通過(guò)調(diào)整各個(gè)獎(jiǎng)勵(lì)項(xiàng)的權(quán)重,研究人員可以靈活地改變系統(tǒng)的優(yōu)先級(jí)——如果更關(guān)注安全性,可以增加沖擊懲罰的權(quán)重;如果更關(guān)注藝術(shù)表現(xiàn),可以提高姿勢(shì)跟蹤的權(quán)重。

      從模擬到現(xiàn)實(shí)的跨越

      雖然機(jī)器人在虛擬環(huán)境中訓(xùn)練,但最終目標(biāo)是要在真實(shí)世界中應(yīng)用。從模擬到現(xiàn)實(shí)的轉(zhuǎn)移一直是機(jī)器人學(xué)習(xí)領(lǐng)域的一大挑戰(zhàn),因?yàn)楝F(xiàn)實(shí)世界充滿了各種模擬器無(wú)法完美復(fù)制的復(fù)雜性和不確定性。為了應(yīng)對(duì)這個(gè)挑戰(zhàn),研究團(tuán)隊(duì)采用了多項(xiàng)技術(shù)來(lái)縮小模擬與現(xiàn)實(shí)之間的差距。

      訓(xùn)練過(guò)程中,系統(tǒng)會(huì)向機(jī)器人的感知數(shù)據(jù)中添加高斯噪聲,模擬真實(shí)傳感器的不完美性。這就像是讓運(yùn)動(dòng)員在視線模糊的情況下練習(xí),當(dāng)他們?cè)谇逦沫h(huán)境中比賽時(shí),表現(xiàn)反而會(huì)更好。此外,系統(tǒng)還會(huì)隨機(jī)施加各種干擾力,作用在機(jī)器人的不同部位上。這些干擾力的大小、方向和持續(xù)時(shí)間都是隨機(jī)的,模擬真實(shí)世界中可能遇到的各種意外推力。

      訓(xùn)練使用的雙足機(jī)器人是一個(gè)定制設(shè)計(jì)的平臺(tái),總重16.2公斤,高0.84米,擁有20個(gè)自由度。每條腿有5個(gè)自由度,使用Unitree A1執(zhí)行器;手臂和頸部則裝備了Dynamixel XH540-V150-R執(zhí)行器。機(jī)器人的狀態(tài)估計(jì)通過(guò)融合機(jī)載慣性測(cè)量單元和運(yùn)動(dòng)捕捉系統(tǒng)的數(shù)據(jù)來(lái)實(shí)現(xiàn)。訓(xùn)練好的策略會(huì)以50赫茲的頻率預(yù)測(cè)關(guān)節(jié)位置指令,這些指令隨后被傳遞給每個(gè)關(guān)節(jié)的PD控制器執(zhí)行。

      研究團(tuán)隊(duì)生成了24000個(gè)訓(xùn)練姿勢(shì)和2000個(gè)測(cè)試姿勢(shì),確保模型能夠泛化到未見(jiàn)過(guò)的姿勢(shì)。除此之外,他們還準(zhǔn)備了10個(gè)由藝術(shù)家在Blender軟件中手工設(shè)計(jì)的表現(xiàn)力豐富的姿勢(shì)。這些藝術(shù)姿勢(shì)在設(shè)計(jì)時(shí)遵守了關(guān)節(jié)限制并避免了自我穿透,但沒(méi)有考慮物理約束,代表了一些極具表現(xiàn)力和挑戰(zhàn)性的目標(biāo)。

      實(shí)驗(yàn)驗(yàn)證:比傳統(tǒng)方法更安全

      為了驗(yàn)證方法的有效性,研究團(tuán)隊(duì)首先將他們的方法與機(jī)器人領(lǐng)域常用的幾種標(biāo)準(zhǔn)跌倒策略進(jìn)行了對(duì)比。第一種是零扭矩策略,即完全不對(duì)關(guān)節(jié)施加力;第二種是阻尼策略,使用比正常值低10倍的增益使關(guān)節(jié)變得柔順;第三種是凍結(jié)策略,使用比正常值高10倍的增益將關(guān)節(jié)鎖定在最近的位置。這三種方法代表了實(shí)踐中最常見(jiàn)的應(yīng)對(duì)跌倒的方式。

      實(shí)驗(yàn)結(jié)果清楚地展示了新方法的優(yōu)勢(shì)。在32768次隨機(jī)初始狀態(tài)的測(cè)試中,新方法產(chǎn)生的最大沖擊力和平均沖擊力都顯著低于三種基線方法。更重要的是,新方法的沖擊力變異性也更小,這意味著跌倒行為更加可控和可預(yù)測(cè)。凍結(jié)關(guān)節(jié)的策略會(huì)讓機(jī)器人像一個(gè)剛性物體一樣倒下,完全沿著初始傾倒的方向;而阻尼或零扭矩策略則會(huì)產(chǎn)生更復(fù)雜但也更難預(yù)測(cè)的運(yùn)動(dòng),因?yàn)椴煌考g會(huì)產(chǎn)生相互作用。相比之下,新方法能夠主動(dòng)控制跌倒過(guò)程,產(chǎn)生既安全又可預(yù)測(cè)的動(dòng)作。

      研究團(tuán)隊(duì)還進(jìn)行了一系列深入的消融實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)探討了沖擊力懲罰權(quán)重對(duì)結(jié)果的影響。他們訓(xùn)練了多個(gè)策略變體,每個(gè)使用不同的接觸力獎(jiǎng)勵(lì)權(quán)重,從50到800不等。結(jié)果表明,隨著接觸力權(quán)重的增加,最大沖擊力確實(shí)會(huì)下降,但關(guān)節(jié)跟蹤誤差會(huì)相應(yīng)增加。這證實(shí)了沖擊最小化和姿勢(shì)跟蹤之間存在固有的權(quán)衡關(guān)系。經(jīng)過(guò)權(quán)衡,研究團(tuán)隊(duì)發(fā)現(xiàn)權(quán)重200能夠在這兩個(gè)目標(biāo)之間取得較好的平衡。

      第二個(gè)消融實(shí)驗(yàn)驗(yàn)證了基于采樣的姿勢(shì)生成策略的重要性。研究團(tuán)隊(duì)比較了兩個(gè)版本:一個(gè)使用自動(dòng)生成的24000個(gè)姿勢(shì)訓(xùn)練,另一個(gè)僅使用10個(gè)藝術(shù)家設(shè)計(jì)的姿勢(shì)訓(xùn)練。結(jié)果顯示,在生成的測(cè)試姿勢(shì)集上,使用生成姿勢(shì)訓(xùn)練的模型在關(guān)節(jié)跟蹤和朝向跟蹤上都表現(xiàn)更好。雖然僅用藝術(shù)姿勢(shì)訓(xùn)練的模型在這些訓(xùn)練過(guò)的姿勢(shì)上表現(xiàn)不錯(cuò),但它在未見(jiàn)姿勢(shì)上的泛化能力很差,在生成的測(cè)試集上誤差顯著增大。這表明大規(guī)模、多樣化的訓(xùn)練數(shù)據(jù)對(duì)于學(xué)習(xí)通用的跌倒策略至關(guān)重要。

      第三個(gè)消融實(shí)驗(yàn)探討了數(shù)據(jù)集規(guī)模的影響。研究團(tuán)隊(duì)訓(xùn)練了多個(gè)模型,每個(gè)使用不同比例的完整訓(xùn)練集,從0.8%到100%。結(jié)果表明,在數(shù)據(jù)量非常少的情況下(1%-6%),性能提升最為顯著,說(shuō)明最小數(shù)據(jù)量對(duì)泛化至關(guān)重要。超過(guò)這個(gè)范圍后,增加數(shù)據(jù)仍能持續(xù)改善性能,但邊際收益逐漸遞減。使用完整的數(shù)據(jù)集能夠獲得最佳的關(guān)節(jié)和朝向跟蹤性能。

      保護(hù)關(guān)鍵部件的藝術(shù)

      機(jī)器人的不同部位對(duì)損傷的敏感度差異很大。研究團(tuán)隊(duì)通過(guò)一個(gè)特別設(shè)計(jì)的實(shí)驗(yàn)展示了如何利用部件敏感度權(quán)重來(lái)實(shí)現(xiàn)針對(duì)性的保護(hù)。他們將機(jī)器人骨盆分成兩部分:主體和后部的電池包。電池包被賦予了高達(dá)5.0的敏感度權(quán)重,而其他所有部件保持為1.0。這模擬了機(jī)器人背部攜帶敏感硬件的情況。

      對(duì)比實(shí)驗(yàn)的結(jié)果令人印象深刻。在所有敏感度權(quán)重都設(shè)為1.0的基線策略中,電池包受到的沖擊力中位數(shù)為36.12牛頓,95百分位數(shù)高達(dá)3321.75牛頓。但當(dāng)電池包的權(quán)重提升到5.0后,中位數(shù)降至0,95百分位數(shù)降至810.69牛頓。中位數(shù)為0意味著在大多數(shù)跌倒場(chǎng)景中,機(jī)器人能夠完全避免電池包受到撞擊。雖然這種保護(hù)策略導(dǎo)致關(guān)節(jié)跟蹤誤差從0.32弧度增加到0.42弧度,朝向誤差從0.11弧度增加到0.16弧度,但對(duì)于需要保護(hù)關(guān)鍵硬件的應(yīng)用來(lái)說(shuō),這種權(quán)衡是完全值得的。

      這個(gè)實(shí)驗(yàn)清楚地證明,研究團(tuán)隊(duì)提出的框架能夠靈活地在不同目標(biāo)之間進(jìn)行權(quán)衡,既能減少整體沖擊力,又能針對(duì)特定部件提供額外保護(hù),同時(shí)仍然保持對(duì)目標(biāo)姿勢(shì)的合理跟蹤。

      真實(shí)世界的優(yōu)雅落地

      雖然模擬實(shí)驗(yàn)提供了定量的證據(jù),但真正的考驗(yàn)在于真實(shí)世界。研究團(tuán)隊(duì)在實(shí)體雙足機(jī)器人上進(jìn)行了一系列定性實(shí)驗(yàn)。他們選擇了10個(gè)由藝術(shù)家設(shè)計(jì)的表現(xiàn)力豐富的目標(biāo)姿勢(shì),然后通過(guò)用棍子隨機(jī)推動(dòng)機(jī)器人來(lái)創(chuàng)造各種初始跌倒條件。

      實(shí)驗(yàn)結(jié)果令人欣慰。機(jī)器人能夠從各個(gè)方向的推力中恢復(fù),并最終達(dá)到或接近目標(biāo)姿勢(shì)。更重要的是,在所有實(shí)驗(yàn)過(guò)程中,機(jī)器人沒(méi)有遭受任何明顯的損傷,保持完全正常工作。這強(qiáng)有力地證明了該方法能夠在真實(shí)世界中實(shí)現(xiàn)柔軟的跌倒行為,有效保護(hù)機(jī)器人最敏感的部位,而且不受跌倒方向的限制。

      觀察實(shí)際的跌倒過(guò)程,可以看到機(jī)器人展現(xiàn)出了類似人類或動(dòng)物的自我保護(hù)本能。當(dāng)機(jī)器人開(kāi)始失去平衡時(shí),它不會(huì)僵硬地倒下,而是會(huì)主動(dòng)調(diào)整身體姿態(tài),用較不敏感的部位先接觸地面,同時(shí)保護(hù)頭部等關(guān)鍵區(qū)域。整個(gè)過(guò)程流暢自然,既沒(méi)有劇烈的碰撞聲,也沒(méi)有部件的損壞。到達(dá)地面后,機(jī)器人會(huì)繼續(xù)微調(diào)姿勢(shì),最終穩(wěn)定在預(yù)設(shè)的目標(biāo)姿勢(shì)上。

      這些真實(shí)世界的實(shí)驗(yàn)不僅驗(yàn)證了技術(shù)的可行性,也展示了其實(shí)用價(jià)值。對(duì)于娛樂(lè)行業(yè)的應(yīng)用來(lái)說(shuō),這種受控的、風(fēng)格化的跌倒能夠讓機(jī)器人的表演更加生動(dòng)和可信。對(duì)于其他應(yīng)用場(chǎng)景,精確控制的最終姿勢(shì)可以作為后續(xù)恢復(fù)動(dòng)作的良好起點(diǎn),幫助機(jī)器人從跌倒中快速恢復(fù)到站立狀態(tài)。

      至頂AI實(shí)驗(yàn)室洞見(jiàn)

      雖然這項(xiàng)研究取得了令人鼓舞的成果,但研究團(tuán)隊(duì)也坦誠(chéng)指出了一些局限性和未來(lái)的改進(jìn)方向。當(dāng)前的所有實(shí)驗(yàn)都在同一個(gè)雙足機(jī)器人上進(jìn)行,雖然建模方法對(duì)機(jī)器人形態(tài)是通用的,但方法在不同類型的人形機(jī)器人或其他多足機(jī)器人上的遷移能力還需要進(jìn)一步驗(yàn)證。

      在實(shí)際應(yīng)用中,一個(gè)關(guān)鍵的挑戰(zhàn)是如何判斷何時(shí)應(yīng)該觸發(fā)跌倒策略。目前的研究將跌倒作為一個(gè)孤立的行為來(lái)研究,有意地將機(jī)器人置于不穩(wěn)定狀態(tài)以觸發(fā)跌倒。但在實(shí)際部署中,需要一套機(jī)制來(lái)預(yù)測(cè)不穩(wěn)定狀態(tài)并及時(shí)觸發(fā)相應(yīng)的跌倒動(dòng)作。簡(jiǎn)單的啟發(fā)式方法可以基于狀態(tài)估計(jì)的失效、電池電量不足或其他安全關(guān)鍵條件來(lái)觸發(fā)跌倒。未來(lái)的工作可以探索從機(jī)器人的運(yùn)動(dòng)動(dòng)力學(xué)中預(yù)測(cè)跌倒的可能性。

      當(dāng)前方法中,每個(gè)機(jī)器人部件的沖擊權(quán)重需要在訓(xùn)練前確定。一個(gè)令人興奮的未來(lái)方向是開(kāi)發(fā)能夠在推理時(shí)調(diào)整策略目標(biāo)的方法,類似于多目標(biāo)強(qiáng)化學(xué)習(xí)的思路。這將允許用戶動(dòng)態(tài)地調(diào)整優(yōu)先級(jí),比如當(dāng)某個(gè)部件接近其磨損極限時(shí),自動(dòng)增加對(duì)該部件的保護(hù)力度。

      此外,目前的實(shí)驗(yàn)中目標(biāo)姿勢(shì)是預(yù)先選定的。未來(lái)的研究可以探索如何根據(jù)機(jī)器人的初始狀態(tài)自動(dòng)確定最合適的跌倒姿勢(shì)。這需要考慮當(dāng)前的動(dòng)量、朝向、與障礙物的距離等多種因素,選擇一個(gè)既安全又易于達(dá)到的目標(biāo)姿勢(shì)。

      最后,跌倒和恢復(fù)是緊密相關(guān)的兩個(gè)行為。目前的研究專注于風(fēng)格化和柔軟的跌倒,但這種行為與近期其他研究探索的恢復(fù)策略是天然耦合的。未來(lái)的工作可以研究如何最好地結(jié)合跌倒和恢復(fù)策略的訓(xùn)練,在兩個(gè)策略中都考慮風(fēng)格化的要求,創(chuàng)造一個(gè)從失衡到跌倒再到恢復(fù)的完整、流暢的動(dòng)作序列。

      跌倒意味著暫時(shí)失去對(duì)系統(tǒng)的控制。但如果能夠控制跌倒的最終狀態(tài)并減輕損傷,這也為機(jī)器人操作打開(kāi)了新的可能性。這種能力不僅適用于特技機(jī)器人和喜劇表演,還可能在未來(lái)被用于穿越更極端的地形。當(dāng)我們不再將跌倒視為必須不惜一切代價(jià)避免的失敗,而是將其看作可以被優(yōu)雅管理的正常事件時(shí),機(jī)器人的能力邊界就會(huì)進(jìn)一步拓展。就像體操運(yùn)動(dòng)員通過(guò)無(wú)數(shù)次練習(xí)掌握了各種落地技巧一樣,機(jī)器人也終于學(xué)會(huì)了這門(mén)摔倒的藝術(shù)。這項(xiàng)由迪士尼研究院完成的研究,讓我們看到了機(jī)器人向真正智能和自適應(yīng)系統(tǒng)邁進(jìn)的又一步。

      論文地址:

      https://arxiv.org/pdf/2511.10635

      本文來(lái)自至頂AI實(shí)驗(yàn)室,一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動(dòng)生成式AI在各個(gè)領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場(chǎng)景,為企業(yè)和個(gè)人提供切實(shí)可行的解決方案。

      Q&A

      Q1:這項(xiàng)研究中的機(jī)器人跌倒技術(shù)能應(yīng)用在哪些實(shí)際場(chǎng)景中?

      A:這項(xiàng)技術(shù)有多個(gè)實(shí)際應(yīng)用方向。在娛樂(lè)行業(yè),機(jī)器人可以執(zhí)行更真實(shí)、更有表現(xiàn)力的動(dòng)作,甚至可以進(jìn)行特技表演和喜劇效果。在工業(yè)應(yīng)用中,這種受控跌倒能夠保護(hù)昂貴的硬件設(shè)備免受損壞。此外,通過(guò)控制機(jī)器人的最終姿勢(shì),可以為后續(xù)的恢復(fù)動(dòng)作提供良好的起點(diǎn),使機(jī)器人能夠從跌倒中快速站起來(lái)繼續(xù)工作。

      Q2:迪士尼研究院的這套跌倒控制系統(tǒng)如何平衡安全性和動(dòng)作美感?

      A:系統(tǒng)通過(guò)一個(gè)精心設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)來(lái)實(shí)現(xiàn)平衡。在跌倒的初期階段,系統(tǒng)主要關(guān)注減少?zèng)_擊力和保護(hù)關(guān)鍵部件,就像確保運(yùn)動(dòng)員安全著陸。隨著時(shí)間推移,系統(tǒng)會(huì)平滑地將重點(diǎn)轉(zhuǎn)移到達(dá)到目標(biāo)姿勢(shì)上,追求動(dòng)作的美感。研究人員可以通過(guò)調(diào)整不同獎(jiǎng)勵(lì)項(xiàng)的權(quán)重來(lái)改變優(yōu)先級(jí),如果更看重安全性就增加沖擊懲罰的權(quán)重,如果更追求藝術(shù)表現(xiàn)就提高姿勢(shì)跟蹤的權(quán)重。

      Q3:訓(xùn)練機(jī)器人學(xué)會(huì)跌倒需要多長(zhǎng)時(shí)間和什么樣的計(jì)算資源?

      A:研究團(tuán)隊(duì)使用了一塊RTX 4090 GPU,同時(shí)運(yùn)行4096個(gè)虛擬環(huán)境實(shí)例來(lái)加速訓(xùn)練。整個(gè)訓(xùn)練過(guò)程需要大約48小時(shí),進(jìn)行了75000次迭代。訓(xùn)練使用了PPO強(qiáng)化學(xué)習(xí)算法,并生成了24000個(gè)訓(xùn)練姿勢(shì)和2000個(gè)測(cè)試姿勢(shì)。雖然訓(xùn)練時(shí)間較長(zhǎng),但一旦訓(xùn)練完成,機(jī)器人就可以在50赫茲的頻率下實(shí)時(shí)做出反應(yīng),快速調(diào)整姿態(tài)應(yīng)對(duì)各種跌倒情況。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      朱婷沒(méi)想到,和75歲老公國(guó)外養(yǎng)老的郎平,已走上另一條“上坡路”

      朱婷沒(méi)想到,和75歲老公國(guó)外養(yǎng)老的郎平,已走上另一條“上坡路”

      草莓解說(shuō)體育
      2025-12-12 04:44:57
      這才是40歲左右的女性該有的穿搭

      這才是40歲左右的女性該有的穿搭

      牛彈琴123456
      2025-12-10 20:51:18
      一個(gè)壞消息:小米SU7銷(xiāo)量創(chuàng)18個(gè)月新低!好消息是,YU7創(chuàng)新高

      一個(gè)壞消息:小米SU7銷(xiāo)量創(chuàng)18個(gè)月新低!好消息是,YU7創(chuàng)新高

      互聯(lián)網(wǎng).亂侃秀
      2025-12-10 10:03:38
      湖南母親送兒子18歲成人禮物,被丈夫回家看見(jiàn)后,釀成一場(chǎng)悲劇

      湖南母親送兒子18歲成人禮物,被丈夫回家看見(jiàn)后,釀成一場(chǎng)悲劇

      曉艾故事匯
      2024-10-29 20:58:22
      國(guó)民黨主席,調(diào)轉(zhuǎn)槍口揮刀向統(tǒng)一,但竟然盯上黨內(nèi)“暗獨(dú)”勢(shì)力!

      國(guó)民黨主席,調(diào)轉(zhuǎn)槍口揮刀向統(tǒng)一,但竟然盯上黨內(nèi)“暗獨(dú)”勢(shì)力!

      眼界看視野
      2025-11-26 18:08:53
      中國(guó)一級(jí)戰(zhàn)備多可怕?千萬(wàn)預(yù)備役被召回,14億人立即切換戰(zhàn)爭(zhēng)模式

      中國(guó)一級(jí)戰(zhàn)備多可怕?千萬(wàn)預(yù)備役被召回,14億人立即切換戰(zhàn)爭(zhēng)模式

      諦聽(tīng)骨語(yǔ)本尊
      2025-11-20 16:06:12
      解鎖夫妻性生活之秘:探求高潮的技巧與體驗(yàn)

      解鎖夫妻性生活之秘:探求高潮的技巧與體驗(yàn)

      精彩分享快樂(lè)
      2025-12-12 00:05:04
      三峽大壩還能撐多少年?美專家:已出現(xiàn)裂紋,一枚導(dǎo)彈直接瓦解?

      三峽大壩還能撐多少年?美專家:已出現(xiàn)裂紋,一枚導(dǎo)彈直接瓦解?

      顧史
      2025-12-05 19:57:35
      國(guó)家隊(duì)一位成員說(shuō)出真相:見(jiàn)到樊振東,大家都不敢做世界冠軍夢(mèng)了

      國(guó)家隊(duì)一位成員說(shuō)出真相:見(jiàn)到樊振東,大家都不敢做世界冠軍夢(mèng)了

      籃球看比賽
      2025-12-11 11:38:54
      世界銀行上調(diào)今明兩年中國(guó)經(jīng)濟(jì)增速預(yù)期

      世界銀行上調(diào)今明兩年中國(guó)經(jīng)濟(jì)增速預(yù)期

      貝殼財(cái)經(jīng)
      2025-12-11 10:55:07
      外交部:歐盟駐華代表團(tuán)發(fā)表的涉華人權(quán)聲明,罔顧事實(shí),顛倒黑白

      外交部:歐盟駐華代表團(tuán)發(fā)表的涉華人權(quán)聲明,罔顧事實(shí),顛倒黑白

      環(huán)球網(wǎng)資訊
      2025-12-11 16:17:33
      高詩(shī)巖獻(xiàn)絕殺后,邱彪底氣更足了,山東高速男籃有抗衡強(qiáng)隊(duì)的資本

      高詩(shī)巖獻(xiàn)絕殺后,邱彪底氣更足了,山東高速男籃有抗衡強(qiáng)隊(duì)的資本

      春日筆記
      2025-12-12 03:00:48
      特朗普又敲打日本,美專家第3次警告:再不拴住日本,美國(guó)會(huì)滅亡

      特朗普又敲打日本,美專家第3次警告:再不拴住日本,美國(guó)會(huì)滅亡

      博覽歷史
      2025-12-10 18:41:15
      摩納哥王室圣誕全家福,親王夫婦攜龍鳳胎與愛(ài)犬同框,氣場(chǎng)拉滿

      摩納哥王室圣誕全家福,親王夫婦攜龍鳳胎與愛(ài)犬同框,氣場(chǎng)拉滿

      述家?jiàn)视?/span>
      2025-12-09 11:07:34
      美女美圖7569期

      美女美圖7569期

      草莓解說(shuō)體育
      2025-12-11 03:39:09
      肚子大到藏不住還去公司慶典!馬筱梅憑啥讓老公寵、婆婆認(rèn)?

      肚子大到藏不住還去公司慶典!馬筱梅憑啥讓老公寵、婆婆認(rèn)?

      高潔之冬
      2025-12-11 07:51:04
      笑岔氣了!濮存昕為外孫女進(jìn)娛樂(lè)圈宣傳,本人評(píng)論區(qū)已淪陷

      笑岔氣了!濮存昕為外孫女進(jìn)娛樂(lè)圈宣傳,本人評(píng)論區(qū)已淪陷

      糊咖娛樂(lè)
      2025-12-11 18:46:20
      是不是覺(jué)得奇怪:日軍幾乎侵占了大半個(gè)中國(guó),卻為何沒(méi)有染指陜西

      是不是覺(jué)得奇怪:日軍幾乎侵占了大半個(gè)中國(guó),卻為何沒(méi)有染指陜西

      浩渺青史
      2025-11-14 21:15:06
      91大神秦先生是什么地位,為何那么多女神讓他屢屢得手?

      91大神秦先生是什么地位,為何那么多女神讓他屢屢得手?

      挪威森林
      2025-10-26 06:10:06
      異性關(guān)系再好,一旦“偷偷”做了這3件事,關(guān)系就很難純潔了

      異性關(guān)系再好,一旦“偷偷”做了這3件事,關(guān)系就很難純潔了

      熱心市民小黃
      2025-12-12 02:57:58
      2025-12-12 05:40:49
      至頂AI實(shí)驗(yàn)室 incentive-icons
      至頂AI實(shí)驗(yàn)室
      一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
      751文章數(shù) 151關(guān)注度
      往期回顧 全部

      科技要聞

      豆包剛被微信淘寶們"群毆" ,又有人來(lái)?yè)屛?/h3>

      頭條要聞

      村支書(shū)賣(mài)小米被小米法務(wù)投訴下架:希望給我們條活路

      頭條要聞

      村支書(shū)賣(mài)小米被小米法務(wù)投訴下架:希望給我們條活路

      體育要聞

      你最看不上的人,關(guān)鍵時(shí)刻卻最想救你...

      娛樂(lè)要聞

      黃慧頤曝保劍鋒出軌細(xì)節(jié)!

      財(cái)經(jīng)要聞

      明年經(jīng)濟(jì)工作怎么干 中央經(jīng)濟(jì)工作會(huì)議定調(diào)

      汽車(chē)要聞

      長(zhǎng)途穿越更輕松 二代哈弗H9穿越版限時(shí)售23.29萬(wàn)

      態(tài)度原創(chuàng)

      家居
      本地
      房產(chǎn)
      教育
      軍事航空

      家居要聞

      歐式風(fēng)格 純粹優(yōu)雅氣質(zhì)

      本地新聞

      打工人夢(mèng)想中的生活,寵物已經(jīng)提前過(guò)上了

      房產(chǎn)要聞

      成交量漲了!??谶@10個(gè)小區(qū),二手房最好賣(mài)!

      教育要聞

      烏蘭察布體校竟培養(yǎng)奧運(yùn)選手!實(shí)力揭秘

      軍事要聞

      泰國(guó)海軍做好戰(zhàn)爭(zhēng)準(zhǔn)備 特朗普要電話調(diào)停泰柬沖突

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲综合色婷婷中文字幕| 少妇无码视频| 日本伊人色综合网| 性交大片| 亚洲成人精品免费| 久本草在线中文字幕亚洲| 国产国语亲子伦亲子| 99久久久无码国产精品免费| 亚洲USV高清无码| 钟祥市| 狠狠色丁香婷婷综合尤物| 香蕉久久av一区二区三区| 18av千部影片| 高清无码在线不卡| 国产人妻人伦精品一区二区| 天天弄天天模| 日韩国产av一区二区三区精品| 精品国产国产2021| 无码色综合| 欧美黑人又粗又大又爽免费| 熟妇人妻av中文字幕老熟妇| 久久99视频| 国产人妻另类综合专区| 欧美精品高清在线观看| 俺去啦中文网| 精品一区二区三区四区| 丹凤县| 国产精品人妻一区二区高| 日本体内she精高潮| 亚洲AV成人片在线观看| 西盟| 久久精品中文字幕免费| 亚洲永久精品ww47| 人妻精品视频| 亚洲成人综合精品| 人妻激情偷乱一区二区三区| 国产成人精品久久综合| 亚洲精品mv免费网站| 九九精品在线看| 日韩一区精品视频一区二区| 午夜视频免费试看|