研究人員提出并行時序編碼器架構(gòu)，提升人形機(jī)器人訓(xùn)練的穩(wěn)定性

2025-08-20 18:04:04　來源: DeepTech深科技

北京舉報

分享至

當(dāng)前，人形機(jī)器人正處于由基礎(chǔ)可行性驗(yàn)證向早期應(yīng)用與智能化演進(jìn)的過渡階段。其已具備相對成熟的能力，包括雙足穩(wěn)定行走、跳躍、轉(zhuǎn)向、多關(guān)節(jié)協(xié)調(diào)控制，以及多模態(tài)感知集成等。這些能力的實(shí)現(xiàn)，在很大程度上依賴于先驗(yàn)工程干預(yù)。在硬件層面，設(shè)計者通過增大足底支撐面積、降低重心、引入冗余結(jié)構(gòu)等手段提升本體的物理穩(wěn)定性；在軟件控制層面，則普遍采用以人類經(jīng)驗(yàn)為核心的控制方法，如 PID 控制、軌跡規(guī)劃、模型預(yù)測控制等，強(qiáng)化學(xué)習(xí)僅作為優(yōu)化模塊輔助使用。這些方法雖能實(shí)現(xiàn)高性能控制，但對特定任務(wù)和平臺高度依賴、泛化能力弱、難以適應(yīng)變化環(huán)境，且對專家知識依賴程度高、獲取成本大。

在人形機(jī)器人向智能化演進(jìn)的過程中，一個核心問題是如何逐步擺脫上述工程依賴，轉(zhuǎn)向更靈活、通用的“學(xué)習(xí)驅(qū)動的智能控制”范式。其中，端到端智能控制成為關(guān)鍵研究方向之一，其目標(biāo)是使機(jī)器人能夠從原始感知輸入（如傳感器數(shù)據(jù)）直接輸出控制命令（如關(guān)節(jié)力矩或速度），無需顯式建模或人工設(shè)定的控制邏輯。這種方式具有自動學(xué)習(xí)復(fù)雜行為的潛力，可更自然地適應(yīng)任務(wù)變化，顯著減少先驗(yàn)知識對系統(tǒng)設(shè)計的限制。

在機(jī)器人領(lǐng)域，Gymnasium 是一個廣泛使用的強(qiáng)化學(xué)習(xí)環(huán)境工具庫，它為開發(fā)者和研究者提供了標(biāo)準(zhǔn)化的虛擬環(huán)境。Gymnasium 中的 MuJoCo Humanoid 環(huán)境為研究端到端控制提供了理想測試平臺。該環(huán)境模擬一個雙足人形機(jī)器人在平坦地面上行走的任務(wù)，是復(fù)雜連續(xù)控制問題中的經(jīng)典強(qiáng)化學(xué)習(xí)基準(zhǔn)。與現(xiàn)實(shí)機(jī)器人不同，仿真模型在結(jié)構(gòu)上有意簡化，缺乏腳掌、助力機(jī)制和動態(tài)平衡輔助裝置，重心較高，穩(wěn)定性較差，從而最大程度減少了硬件層面的工程干預(yù)。這種設(shè)計使該環(huán)境成為評估“純策略控制”能力的典型平臺，有助于更直接反映策略本身的智能水平與適應(yīng)能力。

在此環(huán)境中訓(xùn)練出的策略，可通過獎勵驅(qū)動自動學(xué)習(xí)出如髖關(guān)節(jié)協(xié)調(diào)擺動以維持平衡、利用上肢輔助緩沖摔倒沖擊、上下肢協(xié)同提速行走等行為。這些能力并非由設(shè)計者預(yù)設(shè)，而是策略在訓(xùn)練過程中自然涌現(xiàn)，有效降低了對人工規(guī)則和模型的依賴，減少了算法層面的工程干預(yù)。

然而，現(xiàn)有端到端策略大多建立在完全可觀測環(huán)境的假設(shè)之上，即可獲取環(huán)境的完整狀態(tài)。在實(shí)際系統(tǒng)中，機(jī)器人通常處于部分可觀測狀態(tài)，常面臨傳感器受限、觀測噪聲、信息缺失（如質(zhì)量分布、外力等）等問題。在此背景下，如何在信息不完全的條件下仍實(shí)現(xiàn)高效的控制策略，成為當(dāng)前研究的核心挑戰(zhàn)。

為應(yīng)對觀測不全的問題，一些方法引入了遞歸神經(jīng)網(wǎng)絡(luò)（如 RNN、LSTM）以捕捉歷史信息，以及彌補(bǔ)瞬時觀測的不足。然而，在高維、連續(xù)控制任務(wù)中，這類方法普遍面臨訓(xùn)練不穩(wěn)定、泛化能力差等難題。例如，在 MuJoCo Humanoid 環(huán)境中，目前尚缺乏在部分觀測條件下有效的強(qiáng)化學(xué)習(xí)方法。

因此，澳大利亞紐卡斯?fàn)柎髮W(xué)教授陳智勇和團(tuán)隊在近期一項(xiàng)研究中聚焦于以下問題：在不依賴完整狀態(tài)觀測的前提下，能否設(shè)計出一種穩(wěn)定、結(jié)構(gòu)簡潔、具擴(kuò)展性的策略架構(gòu)，以提升人形機(jī)器人在部分可觀測環(huán)境中的控制能力？研究人員希望通過構(gòu)建新的機(jī)制，使強(qiáng)化學(xué)習(xí)策略能夠從有限的觀測中提取關(guān)鍵動態(tài)信息，從而完成復(fù)雜的運(yùn)動控制任務(wù)。該方向的探索將有助于推動人形機(jī)器人從依賴結(jié)構(gòu)和規(guī)則的工程化控制體系，邁向更具泛化性和自主性的智能控制系統(tǒng)。

圖 | 陳智勇（來源：陳智勇）

在部分可觀測環(huán)境中，智能體無法直接獲取完整的環(huán)境狀態(tài)，通常需要依賴有限長度的歷史觀測來重構(gòu)當(dāng)前狀態(tài)。在可觀性條件滿足時，這種方式可將原本的部分可觀測馬爾可夫決策過程（POMDP，Partially Observable Markov Decision Process）轉(zhuǎn)化為完全可觀測的馬爾可夫決策過程（FOMDP，F(xiàn)ully Observable Markov Decision Process）。然而，由于歷史觀測之間存在大量冗余信息，直接拼接歷史輸入將顯著膨脹狀態(tài)空間維度，增加策略學(xué)習(xí)的復(fù)雜度與不穩(wěn)定性。因此，如何從冗余的歷史觀測中有效提取關(guān)鍵特征，成為實(shí)現(xiàn)高效策略學(xué)習(xí)的核心挑戰(zhàn)。

針對該問題，本研究提出了一種并行時序編碼器架構(gòu)，結(jié)合多頭注意力機(jī)制（Multi-Head Attention），對歷史觀測序列進(jìn)行高效建模與信息聚合。該方法在不依賴遞歸結(jié)構(gòu)（如 RNN、LSTM）的前提下，能夠從有限歷史中恢復(fù)缺失的狀態(tài)信息，顯著提升策略訓(xùn)練的穩(wěn)定性與最終性能。多頭注意力機(jī)制作為現(xiàn)代深度學(xué)習(xí)的核心結(jié)構(gòu)，已經(jīng)廣泛應(yīng)用于自然語言處理、計算機(jī)視覺、語音識別與強(qiáng)化學(xué)習(xí)等領(lǐng)域。其基本思想是從多個子空間維度并行關(guān)注輸入序列的不同部分，從而提取豐富的上下文信息與特征關(guān)聯(lián)。在本研究中，多頭注意力被用于從歷史觀測中自動篩選與當(dāng)前決策最相關(guān)的信息、學(xué)習(xí)時間依賴性與關(guān)鍵感知特征。

（來源：https://arxiv.org/pdf/2507.18883）

研究人員在 MuJoCo Humanoid 環(huán)境中對該方法進(jìn)行了系統(tǒng)實(shí)證。該環(huán)境的狀態(tài)空間維度為 348，包含身體各部位的位置、速度、質(zhì)量、慣性參數(shù)、執(zhí)行器力以及外部作用力等信息。實(shí)驗(yàn)結(jié)果表明，即使僅使用原始觀測的三分之一至三分之二維度，所提出的方法仍可達(dá)到甚至超過完整狀態(tài)輸入下的強(qiáng)化學(xué)習(xí)基線性能（如 TD3）。尤其值得強(qiáng)調(diào)的是，在移除質(zhì)量、慣性與力信息，僅保留約三分之一狀態(tài)維度的設(shè)定下，策略仍能憑借位置與速度等部分觀測有效建構(gòu)控制模型、快速收斂，并最終超越完整觀測策略的性能。這也是首次在該環(huán)境的部分可觀測設(shè)定下，通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)穩(wěn)定有效控制的成功案例。

此外，研究人員進(jìn)一步評估了該策略在物理參數(shù)變化下的泛化能力。在測試中，研究人員對雙手、小腿、大腿、上臂、骨盆和軀干等部位的質(zhì)量進(jìn)行 ±50% 的獨(dú)立擾動。結(jié)果顯示，訓(xùn)練策略在多種質(zhì)量配置下依然保持穩(wěn)定性能，展現(xiàn)出良好的魯棒性與適應(yīng)性，驗(yàn)證了其對物理參數(shù)變化的容忍度與廣泛適用性。

本研究在部分可觀測條件下提出了一種純學(xué)習(xí)驅(qū)動的人形機(jī)器人控制方法，推動機(jī)器人從“規(guī)則執(zhí)行”邁向“行為智能”，擺脫對工程干預(yù)與人類經(jīng)驗(yàn)的依賴，為類腦智能與具身智能方法體系的演進(jìn)提供了有益探索。在實(shí)踐層面，該方法有助于降低對專家知識的依賴，提升系統(tǒng)的通用性與自主性。未來，該方法可與大語言模型和多模態(tài)感知系統(tǒng)融合，構(gòu)建具備認(rèn)知、感知與行動能力的類人自主體。本研究的最終目標(biāo)不僅在于實(shí)現(xiàn)穩(wěn)定的人形行走控制，更在于建立一種通用、穩(wěn)定、可擴(kuò)展的控制學(xué)習(xí)范式，以應(yīng)對具備復(fù)雜時序結(jié)構(gòu)的任務(wù)需求。

陳智勇告訴 DeepTech：“這些工作是我?guī)ьI(lǐng)博士生王吳皓完成的。他于 2023 年獲得瑞典林雪平大學(xué)的碩士學(xué)位，目前是紐卡斯?fàn)柎髮W(xué)二年級的博士生，展現(xiàn)出極強(qiáng)的學(xué)習(xí)能力和科研潛力。這些成果來源于我們在自動控制、強(qiáng)化學(xué)習(xí)和機(jī)器人技術(shù)這三個領(lǐng)域不斷交叉探索的過程，體現(xiàn)了輸出反饋、狀態(tài)估計和自適應(yīng)控制等經(jīng)典控制理念在強(qiáng)化學(xué)習(xí)框架下的融合與演化，并成功應(yīng)用于人形機(jī)器人平臺。”

本研究主要聚焦于算法層面，提出了一種在部分可觀測條件下實(shí)現(xiàn)穩(wěn)定人形機(jī)器人控制的純學(xué)習(xí)方法。下一步，研究人員將繼續(xù)拓展該算法框架，進(jìn)一步提升其性能與泛化能力，并在更具多樣性的人形機(jī)器人模型中進(jìn)行系統(tǒng)評估，逐步推廣至其他類型的高維連續(xù)控制環(huán)境。同時，研究人員也計劃推動該方法向現(xiàn)實(shí)系統(tǒng)遷移，探索其在真實(shí)人形機(jī)器人平臺上的部署與驗(yàn)證可行性。目前，現(xiàn)實(shí)人形機(jī)器人在關(guān)鍵控制環(huán)節(jié)仍高度依賴工程化干預(yù)、人類經(jīng)驗(yàn)和手動調(diào)參。研究人員希望本研究能夠?yàn)槎说蕉藢W(xué)習(xí)控制在實(shí)際機(jī)器人系統(tǒng)中的落地應(yīng)用提供算法基礎(chǔ)與技術(shù)支持，進(jìn)而推動人形機(jī)器人向更高自主性、更低人工依賴的方向演進(jìn)。

參考資料：

https://arxiv.org/pdf/2507.18883

運(yùn)營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.