團隊在論文中表示,未來將進一步探索功能泛化能力,希望實現“舉一反三”的效果,讓機器人掌握一種核心物體的操控功能后,能夠自動推斷出其他物體的操控軌跡,徹底擺脫對海量演示數據的依賴。
在人形機器人邁向實用化的道路上,數據依賴和環境適應能力一直是兩大核心瓶頸。現有主流方案大多采用數據驅動模式,不僅需要海量訓練樣本支撐,還常常忽略幾何推理能力,導致機器人在陌生場景中頻繁“失靈”,大量訓練資源也因此被浪費。
![]()
近日,武漢大學團隊提出的遞歸幾何先驗多模態策略(RGMP)框架。該框架創新性地將幾何語義技能推理與數據高效的視覺運動控制相融合,在人形機器人和桌面雙臂機器人平臺上,泛化測試任務成功率達到87%,數據效率更是較當前最先進模型提升5倍。
▍雙模塊協同:破解感知與運動的雙重難題
RGMP框架采用端到端設計,通過幾何先驗技能選擇器(GSS) 和自適應遞歸高斯網絡(ARGN) 的協同工作,解決了陌生場景下的技能選擇難題同時,還實現了數據稀缺條件下的精準運動合成,整體架構簡潔且高效。
▍幾何先驗技能選擇器:給機器人裝上“空間常識大腦”
GSS模塊的核心創新在于將幾何歸納偏置融入視覺語言模型,讓機器人像人類一樣結合視覺幾何特征和任務語義選擇合適技能。該模塊采用模塊化設計,具備即插即用特性,僅需20條基于規則的約束就能實現穩定性能,大幅降低了調優成本。
![]()
RGMP 的技術流程
主要工作流程分為兩步:第一步通過視覺語言模型解析人類指令,在圖像中識別目標物體并定位邊界框;第二步結合目標物體的相對位置、形狀等常識信息,從預訓練技能庫中匹配最優技能。例如,當接收到“我想要芬達”的指令時,系統會先通過Yolov8n - seg模型提取芬達罐的形狀信息,識別出其“圓柱形”特征,再依據幾何先驗知識自動選擇“側面抓取”技能;而面對壓扁的可樂罐時,則會適配“抬起”技能。
![]()
人機交互流程及模型驗證
![]()
在對比實驗中,無論是搭配ResNet50、Transformer還是Maniskill2 - 1st等不同骨干網絡,GSS的技能選擇準確率都比基礎的Qwen - vl模型高出15%-25%。在人類手部、噴霧瓶等復雜目標的操控任務中,優勢尤為明顯,充分驗證了其在處理不同形狀物體時的魯棒性。
▍自適應遞歸高斯網絡:讓機器人運動“精準又省數據”
ARGN模塊則聚焦于解決數據效率低和空間關系建模難的問題,通過遞歸計算構建空間記憶,同時引入自適應衰減機制和高斯混合模型(GMM),實現了高效且精準的運動生成。
![]()
人機交互流程及模型驗證
為了建立圖像斑塊與機器人動作之間的關聯,該模塊采用旋轉位置編碼(RoPE),無需可學習的位置參數就能增強模型對相對空間偏移的敏感性。針對遞歸計算中容易出現的梯度消失問題,設計了自適應衰減機制,動態控制歷史記憶的衰減速率,既能防止關鍵空間信息丟失,又能自適應放大任務關鍵斑塊的權重。
在運動合成的最后階段,ARGN摒棄了單一高斯模型容易回歸均值、控制精度不足的缺陷,采用包含6個分量的高斯混合模型,分別對應六自由度機械臂的各個關節。通過期望最大化(EM)算法估計模型參數,利用馬氏距離選擇最匹配的動作聚類中心,最終輸出精準的關節角度指令。實驗證明,加入GMM后,ARGN在抓取壓扁可樂罐任務中的準確率從0.60提升至0.69,性能提升顯著。
![]()
值得一提的是,ARGN的各組件協同效應明顯。當RoPE、空間混合塊和通道混合塊同時啟用時,模型在芬達罐、可樂罐、噴霧瓶和人類手部的抓取任務中均達到最高準確率,分別為0.98、0.78、0.81和0.90,充分體現了其架構設計的合理性。
▍實測封神:跨平臺驗證,性能全面碾壓主流模型
為了充分驗證RGMP框架的實用性,團隊在人形機器人(聚焦上肢操控)桌面雙臂機器人兩大平臺上開展了全面測試,不僅與ResNet50、Transformer等經典架構對比,還挑戰了Maniskill2冠軍方案、Octo、OpenVLA等當前主流的機器人操控模型。
![]()
RGMP的泛化操控能力
在泛化能力測試中,研究人員僅用40條芬達罐抓取演示樣本訓練模型,隨后讓其執行可樂罐、噴霧瓶、人類手部等未見過目標的操控任務。
![]()
結果顯示,RGMP的平均抓取準確率達到0.87,遠超Diffusion Policy的0.70、Dex - VLA的0.77,更是大幅領先于Maniskill2 - 1st和OpenVLA等模型。即使是形狀不規則的壓扁可樂罐,RGMP的準確率也達到0.78,展現出強大的跨物體適配能力。
![]()
在數據效率方面,RGMP更是表現驚艷。僅用40條訓練樣本就實現了0.98的高準確率,而Diffusion Policy需要200條樣本才能達到相同水平,這意味著RGMP的數據效率是當前最優方案的5倍。隨著樣本數量增加,RGMP的準確率穩定維持在0.98以上,展現出極佳的穩定性,為低成本訓練機器人操控模型提供了可能。
![]()
RGMP在Maniskill2仿真平臺上的性能表現
此外,在Maniskill2仿真平臺的五大復雜任務中,包括推椅子、移水桶、插充電器、開柜門和開抽屜,RGMP的平均得分達到0.15,遠超其他對比模型的0.06 - 0.10。在開柜門任務中,其得分更是達到0.26,是部分模型的兩倍多,證明該框架不僅適用于簡單抓取,還能勝任復雜的復合操控任務。
▍結語與未來:
RGMP框架通過幾何語義推理與遞歸高斯適配的深度融合,成功突破了現有機器人操控技術在泛化能力和數據效率上的雙重限制。其創新點不僅在于兩個核心模塊的巧妙設計,更在于構建了一套從感知決策到運動執行的完整解決方案,為后續研究提供了可復用的技術范式。
論文鏈接:https://arxiv.org/pdf/2511.09141
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.