![]()
趙子杰,中國科學院自動化研究所博士生,導師為趙冬斌研究員和朱圓恒副研究員。本科畢業(yè)于電子科技大學并獲得榮譽學位(Top 0.7%)。主要研究方向為強化學習、世界模型和機器人學習,重點關注融合學習、規(guī)劃與控制的方法,以實現(xiàn)魯棒且可擴展的真實世界機器人智能。
近年來,Decision-Coupled World Model與Model-based RL在機器人領域取得了顯著成功。通過學習環(huán)境動力學模型,智能體能夠在內部模擬未來,從而進行規(guī)劃與決策。但當系統(tǒng)從單機器人擴展到多機器人時,問題開始變得棘手。
在多機器人系統(tǒng)中,世界的變化不再由單獨個體決定,而是由多個個體共同作用。于是,一個關鍵問題是:如何讓世界模型能夠理解多機器人系統(tǒng)的聯(lián)合動力學?
為了解決這一挑戰(zhàn),中科院自動化所深度強化學習團隊提出 SeqWM,對多機器人聯(lián)合動力學進行順序式的因果條件化分解,使機器人能夠在意圖共享的基礎上進行協(xié)同規(guī)劃。該成果已被ICLR 2026接收,并在評審中獲得8 / 8 / 8 / 2的評分。
![]()
- 論文標題:Empowering Multi-Robot Cooperation via Sequential World Models
- 代碼地址:https://github.com/zhaozijie2022/seqwm
為什么多機器人協(xié)作如此困難?
當多個機器人同時參與決策時,系統(tǒng)的動力學會迅速變得復雜:每個機器人的動作都會影響環(huán)境,也會影響其他機器人接下來的決策。這使得多機器人協(xié)作成為強化學習和機器人領域長期以來的核心難題。核心原因在于:世界不再由單一策略驅動,而是由多個智能體共同決定。這帶來了兩個關鍵挑戰(zhàn):
- 因果結構復雜化:多個機器人同時作用于環(huán)境,導致動力學模型需要同時處理多個「因果源」,學習難度顯著增加。強行共享策略易產(chǎn)生梯度沖突。
- 決策 - 世界閉環(huán)被打破:在單機器人場景中,動作 → 環(huán)境變化之間形成穩(wěn)定閉環(huán);而在多機器人系統(tǒng)中,每個機器人都受到其他機器人的影響,預測誤差會迅速累積。
![]()
圖 1:多智能體世界建模困境:在多個 robot 的作用下,足球去向哪里?
SeqWM:多機器人世界模型的順序式因果分解
現(xiàn)有方法通常把多機器人系統(tǒng)看作一個整體:所有機器人的狀態(tài)和動作會同時輸入到一個統(tǒng)一模型中,進而預測未來環(huán)境變化。然而,隨著機器人數(shù)量增加,這種聯(lián)合動力學建模的復雜度會迅速增長,使得模型難以穩(wěn)定學習和泛化,也增大了部署的難度。
SeqWM 從一個全新的視角重新思考了這個問題。研究團隊提出一個關鍵觀察:
多機器人世界的變化,其實可以被建模為多個機器人依次作用于環(huán)境的過程。
基于這一觀察,SeqWM 不再試圖學習一個復雜的整體動力學函數(shù),而是將聯(lián)合動力學分解為一系列順序條件化的狀態(tài)轉移過程。每個機器人只需要學習:在已知前序機器人動作的條件下,自己對世界狀態(tài)演化所產(chǎn)生的邊際因果貢獻。形式上,原本的聯(lián)合動力學被重寫為順序條件化的分解形式:
![]()
這種順序式分解將復雜的多機器人動力學轉化為一系列條件預測問題,從而顯著降低了建模難度。
![]()
圖 2:R1 先規(guī)劃并共享未來軌跡,R2 據(jù)此調整路徑,實現(xiàn)對房間的協(xié)同探索
在軌跡預測階段,
- 每個機器人維護一個獨立的世界模型
- 每個模型只建模自身對環(huán)境的邊際貢獻
- 后續(xù)機器人在預測時條件化前序機器人的預測結果
這種結構使得復雜的聯(lián)合動力學被拆解為多個簡單且可擴展的局部預測過程。
在動作規(guī)劃階段,SeqWM 使用 MPPI(Model Predictive Path Integral) 進行動作規(guī)劃。機器人按照順序進行規(guī)劃,并共享預測軌跡。這意味著:后續(xù)機器人在規(guī)劃時,可以提前知道前序機器人的未來計劃。這種機制形成了一種顯式的意圖共享,顯著增強協(xié)作能力。
![]()
圖 3:MPPI-based planner 示意圖
仿真實驗對比
研究團隊在兩個具有挑戰(zhàn)性的多機器人環(huán)境中評估了 SeqWM:
- Bi-DexHands:雙靈巧手協(xié)作操作任務
- Multi-Quadruped:多四足機器人協(xié)作任務
實驗結果表明:SeqWM 在所有任務中均顯著超過現(xiàn)有方法,在性能與樣本效率方面均取得領先。
![]()
圖4:仿真實驗可視化
協(xié)作行為如何自然產(chǎn)生?
SeqWM 不僅提升了任務成功率,還產(chǎn)生了多種自然協(xié)作行為。例如:
預測適應(Predictive Adaptation):機器人能夠根據(jù)伙伴預測的未來動作提前調整動作。例如在接拋球任務中,接球機器人會提前移動到預測落點附近,從而穩(wěn)定完成抓取。
![]()
角色分工(Role Division):在推箱子任務中:一只機器人負責 主要推進力,另一只機器人負責 方向調整。這種分工并非人工設計,而是在訓練中自然產(chǎn)生。
![]()
Sim-to-Real 真實機器人實驗
為了驗證算法在真實環(huán)境中的效果,研究團隊還將 SeqWM 部署到了 Unitree Go2-W 機器人平臺。實驗包括:推箱子、通過窄門、引導目標機器人:
![]()
![]()
實驗結果表明,真實機器人系統(tǒng)中的協(xié)作行為與仿真結果高度一致,驗證了 SeqWM 的實際應用潛力。
總結
SeqWM 提出了一種新的多機器人世界建模方式:通過順序因果結構分解多機器人動力學。這一設計使得復雜的多機器人協(xié)作問題變得更加可建模、可規(guī)劃,也為真實機器人系統(tǒng)提供了一種可擴展的解決方案。隨著世界模型與強化學習技術的發(fā)展,未來的機器人系統(tǒng)或許能夠像人類團隊一樣,通過共享意圖與協(xié)同行動完成更加復雜的任務。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.