近,浙江大學公布了“基于人類動作預測模型的多指靈巧手操作強化學習方法”的新專利,屬于人形機器人靈巧手具身操作領域。
來源:章國鋒.基于人類動作預測模型的多指靈巧手操作強化學習方法
隨著具身智能技術的快速發展,如何以數據驅動方式賦予人形機器人通用操作技能,已成為當前機器人領域的研究熱點。其中,多指靈巧手憑借仿人化結構設計,可在多種復雜場景下完成精細操作,實現擬人化的多指靈巧操控,是邁向通用人形機器人的關鍵環節。
在數據驅動的多指靈巧手操作學習領域,現有方法主要分為三類。
第一類為傳統強化學習方法,該類方法依靠獎勵函數驅動智能體進行大量探索,通常需要針對不同任務重新設計獎勵函數。
第二類方法直接利用數據集中的人手軌跡,通過重映射生成靈巧手的專家軌跡,再借助模仿學習復現對應的操作行為。
第三類方法基于神經網絡,根據預先硬編碼的物體軌跡預測靈巧手的未來運動軌跡,并結合殘差強化學習對底層控制進行優化。
當前主流方法均有一些短板。第一類方法受限于靈巧手遠超平行夾爪的空間自由度和復雜度,訓練時探索空間過大,導致收斂速度慢、成功率不穩定;同時,靈巧手與物體的非線性交互特性,需人工針對不同場景設計獎勵函數,難以實現通用化。第二類方法過度依賴人類數據記憶,泛化能力薄弱,無法應對全新物體和位姿,且忽視了對被操作物體的感知與理解。第三類方法需預先掌握物體完整軌跡,不僅增加了開放世界部署成本,還對物體初始位姿要求極高,難以處理位姿偏離訓練數據的情況。
綜上,現有方法多單純模仿人手行為,忽視物體感知理解及人手-物體交互的整體建模,導致其在不同物體、位姿和任務下泛化性能不佳。因此,引入物體感知理解、實現人手-物體交互過程整體預測,成為亟待解決的核心技術難題。
針對這一痛點,浙大團隊提出了一套高效解決方案。團隊利用標注了人手與物體三維位姿的數據,訓練人類動作預測模型,實現了人手與物體交互三維軌跡的泛化生成。基于該預測軌跡,團隊構建通用獎勵函數,應用于仿真環境中靈巧手強化學習策略的訓練。隨后,通過仿真參數域隨機化與課程學習,有效提升策略從仿真到現實的遷移性能,最終將訓練成熟的強化學習策略成功部署至真實機器人系統,為靈巧手的實用化應用提供了可行路徑。
![]()
此專利通過引入對被操作物體的未來姿態的理解,將人手和物體的交互過程作為一個整體來預測,并基于此構建統一、簡潔、高效的獎勵函數,適用于不同的操作任務、不同類型的靈巧手,具有泛化性強、成功率高、獎勵函數通用性強等優點。
來源:章國鋒.基于人類動作預測模型的多指靈巧手操作強化學習方法
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.