深度主動推理與時間分層世界模型的現實世界機器人控制
Real-World Robot Control by Deep Active Inference With a Temporally Hierarchical World Model
https://arxiv.org/pdf/2512.01924
![]()
摘要
——在不確定的真實世界環境中,機器人必須同時執行目標導向行為和探索性行為。然而,大多數基于深度學習的控制方法忽視了探索,并在面對不確定性時表現不佳。為解決這一問題,我們采用深度主動推理(deep active inference)框架,該框架能夠解釋人類的目標導向與探索性行為。然而,傳統的深度主動推理方法由于環境表征能力有限以及動作選擇計算成本過高而面臨挑戰。我們提出了一種新穎的深度主動推理框架,包含一個世界模型(world model)、一個動作模型(action model)和一個抽象世界模型(abstract world model)。世界模型將環境動態編碼為慢速和快速時間尺度上的隱狀態表征;動作模型利用向量量化(vector quantization)將動作序列壓縮為抽象動作;抽象世界模型則根據抽象動作預測未來的慢速狀態,從而實現低成本的動作選擇。我們在真實機器人上對物體操作任務進行了評估。結果表明,該框架在多種操作任務中均取得了高成功率,并能在不確定環境中靈活切換目標導向與探索性行為,同時使動作選擇在計算上變得可行。這些發現凸顯了對多時間尺度動態建模以及對動作與狀態轉移進行抽象的重要性。
I. 引言
隨著基于深度學習的機器人控制方法的最新進展,人們越來越期待實現能夠完成廣泛類人目標的機器人[1]–[3]。在真實世界環境中,任務所需物體的存在與否或其排列方式常常是不確定的,而當前的機器人難以應對這類不確定性[4]。相比之下,人類不僅能執行目標導向的行為,還能通過探索(例如尋找物體的位置)來消除環境不確定性,從而有效適應不確定情境[5],[6]。
為實現既能執行目標導向行為又能進行探索的機器人,我們聚焦于深度主動推理[7]–[10]——一種基于計算理論的深度學習框架,該理論可解釋多種認知功能[5],[11],[12]。然而,深度主動推理面臨兩大關鍵挑戰:(1) 其性能高度依賴于框架對環境動態的表征能力[13];(2) 計算成本過高[9],難以應用于真實世界的機器人。
為應對這些挑戰,我們提出了一種由世界模型、動作模型和抽象世界模型組成的深度主動推理框架。世界模型從人類收集的機器人動作與觀測數據中學習隱狀態轉移,以表征環境動態[14]–[16]。動作模型將一連串實際動作映射到一組習得的抽象動作之一,每個抽象動作對應一種有意義的行為(例如將物體從盤子移動到鍋中)[17]。抽象世界模型則學習世界模型所習得的狀態表征與動作模型所習得的抽象動作表征之間的關系[18]。通過利用抽象世界模型和抽象動作表征,該框架實現了高效的主動推理。
為評估所提方法,我們在具有不確定性的現實環境中開展了機器人實驗。我們考察了該框架是否能降低計算成本,使機器人成功完成涉及多個物體操作的多樣化任務,并執行探索性行為以消除環境不確定性。
II. 相關工作
A. 用于機器人控制的示教學習(Learning from Demonstration, LfD)
示教學習是一種通過模仿人類專家來訓練機器人的方法,可為學習控制策略提供安全且任務相關的數據[19]–[24]。LfD在機器人領域近期取得進展的一個關鍵理念是生成多步動作序列,而非僅生成單步動作[1]–[3],[17],[25]。然而,LfD面臨的主要挑戰在于,即使在大量專家演示數據上訓練,也難以泛化到具有不確定性的環境中[4]。在本研究中,我們聚焦于一種使用從動作序列中提取的量化特征的方法[17],并將這些提取出的特征視為抽象動作表征。
B. 世界模型
世界模型通過建模數據(觀測)、其潛在原因(隱狀態)與動作之間的關系來捕捉環境動態。近年來,世界模型在基于模型的強化學習背景下受到廣泛關注[14],[15],尤其在人工智能體與機器人領域[26]。然而,當機器人利用世界模型進行學習時,其性能受限于模型表征環境動態的能力[27],[28]。特別是,學習環境中的長期依賴關系仍是一大挑戰。一種解決方案是在模型結構中引入時間層次[27],[29]–[31]。此外,通過引入能捕捉慢速動態的抽象動作表征,模型可以更高效地預測未來的觀測與狀態[18]。
可以通過區分狀態更新頻率 [27], [29], [30] 或調節狀態轉移的時間常數 [16], [32], [33] 來引入時間層次結構。在本研究中,我們采用后者,以更好地在世界模型中表征慢速動態 [31]。
III. 主動推理的公式化
![]()
![]()
![]()
傳統的主動推理要求在任務執行過程中計算所有可能動作序列的 EFE,這對于現實世界的動作空間而言是不可行的 [6]。近期的研究通過將 EFE 作為動作生成模型訓練的損失函數來應對這一問題 [7]–[9],但往往忽略了探索能力。在本工作中,我們提出了一種新穎的框架,既關注目標達成性能,又兼顧探索能力,并可在任務執行過程中可處理地計算 EFE。
IV. 方法
A. 框架
我們提出了一種基于深度主動推理的框架,該框架能夠同時實現目標達成與探索。所提出的框架由一個世界模型、一個動作模型和一個抽象世界模型組成(圖1)。
![]()
![]()
- 世界模型:世界模型包含一個動力學模型、一個編碼器和一個解碼器,三者均被同步訓練(圖2)。作為動力學模型,我們采用一個分層模型 [39],它由慢速狀態和快速狀態構成。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
B. 動作選擇
![]()
首先,我們根據我們的世界模型對公式 (2) 進行重新表述(詳細推導見附錄 I):
![]()
![]()
![]()
![]()
![]()
V. 實驗
A. 環境設置
為探究所提出的框架是否能在真實世界環境中同時實現目標達成與探索行為——在該環境中可操作多個物體,且不確定性源于物體的擺放位置——我們使用圖4(左)所示的機器人進行了實驗 [43], [44]。該機器人具有六個自由度,其中之一為夾爪。一臺攝像頭(RealSense Depth Camera D435;Intel)被安裝在機器人正對面,用于捕捉機器人及其環境的視野。
![]()
從攝像頭視角看,一個簡易碟子、一個鍋和一個平底鍋分別放置在右側、中央和左側,而鍋蓋則置于比中央鍋更靠近攝像頭的位置。此外,實驗環境被配置為:可能存在一個藍色小球、一個紅色小球,或兩者同時存在。因此,當鍋蓋關閉時便會產生不確定性——因為此時鍋內可能包含藍色小球、紅色小球,也可能兩者都沒有。
作為訓練數據,我們通過演示預設的八種策略模式(圖4(右))收集了物體操作數據。每次演示由兩個策略模式序列組成。對于所有有效組合(排除會導致無動作的組合,例如連續兩次執行動作3),我們以主從遙操作方式控制機器人,每種組合采集五次演示。在僅含藍色小球或紅色小球的環境中,共有36種有效動作組合;在同時包含兩種小球的環境中,則有72種組合。每個序列以5 Hz的頻率記錄100個時間步的關節角度和相機圖像,因此每種策略模式大約持續50個時間步。原始RGB圖像被裁剪并調整為64×80像素。在本實驗中,機器人動作定義為絕對關節角度位置,觀測定義為相機圖像。
B. 模型組件的
![]()
C. 實驗標準
![]()
其次,我們評估了對于動作模型所學習到的每一個抽象動作,是否能從相同的初始狀態生成不同的預測結果。我們還檢驗了:當執行由某一特定抽象動作生成的實際動作后,所觀察到的結果是否與抽象世界模型的預測一致。
目標達成性能:我們在多種物體配置下評估了小球操作(140次試驗)和鍋蓋操作(24次試驗)任務的成功率,例如移動特定顏色的小球或操作鍋蓋。若機器人在50個時間步內將目標物體放置到指定的目標位置,則該次試驗被視為成功。
環境探索能力:我們評估了所提框架是否不僅能生成目標導向行為,還能在初始狀態不確定的情況下生成探索性行為。為此,我們設置了一種場景:藍色小球初始位于平底鍋中,而鍋蓋處于關閉狀態,從而導致無法確定紅色小球是否存在于鍋內。在此場景中,若機器人執行探索性行為,預期其會打開鍋蓋以消除不確定性。
D. 基線方法與消融實驗
在目標達成性能實驗中,我們將所提框架與一個基線方法及兩種消融變體進行了比較,具體如下:
- 目標條件擴散策略(Goal-conditioned Diffusion Policy, GC-DP):作為基線,我們實現了一個基于U-Net骨干網絡的擴散策略 [1], [45]。在我們的實現中,該策略基于最近兩次觀測和一個目標觀測,預測未來48步的動作。為穩定動作輸出,我們對生成的動作施加了權重為0.7的指數移動平均。
![]()
- 無抽象世界模型(No Abstract World Model, No AWM):作為另一項消融實驗,機器人在規劃時不使用抽象世界模型,而是直接在由動作模型解碼出的實際動作序列上計算EFE。
我們未對動作模型本身進行消融,因為本框架依賴該模型生成用于評估的候選動作集合(無論是抽象動作還是實際動作),因此它是核心且不可或缺的組成部分。
VI. 結果
A. 抽象世界模型的能力
我們提出的框架僅需 2.37 毫秒即可評估所有候選抽象動作,相比之下,傳統深度主動推理方法的順序評估耗時達 71.8 毫秒。這證明了我們所提框架具有更高的計算可行性。
![]()
![]()
B. 目標達成性能
表I展示了我們所提框架在特定小球和鍋蓋操作任務中生成目標導向動作的成功率。除“開蓋”目標外,所提方法在所有目標條件下均優于基線方法及消融變體,總體成功率超過70%。作為一個定性示例,圖6說明了當目標是將小球從碟子移動到平底鍋時的EFE計算過程。具有最低EFE的抽象動作正確預測了期望的結果,執行由此抽象動作派生的實際動作后,任務得以成功完成。這一整體結果證實:通過最小化EFE來選擇抽象動作,對于實現目標是有效的。
![]()
我們框架中的失敗案例主要源于世界模型預測不一致,導致機器人誤以為某個不合適的動作會成功。例如,所提框架曾選擇抓取空無一物的動作,卻將未被抓取的目標物體放置于指定位置。相比之下,GC-DP、非分層模型和無AWM模型均表現出更低的成功率。GC-DP 在抓取和放置物體時經常失敗。兩種消融模型比完整模型面臨更多的預測不一致性,突顯了時間層次結構和動作/狀態抽象的重要性。No AWM消融模型表現較低,表明動作抽象是成功的關鍵組成部分。
C. 環境探索
![]()
![]()
VII. 結論
在本研究中,我們提出了一種深度主動推理框架,該框架結合了時間層次化世界模型、基于向量量化的動作模型以及抽象世界模型。通過在時間層次結構中捕捉動態,并將動作序列編碼為抽象動作,該框架使基于主動推理的動作選擇在計算上變得可行。在真實世界物體操作任務中的實驗表明,所提框架在多種目標導向場景下均優于基線方法,并且能夠在不確定環境中從目標導向行為切換至探索性行為。
盡管取得了這些有前景的結果,仍存在若干挑戰:
1)動作模型采用了固定長度的動作序列,這可能并非最優;
2)對于訓練數據集中未出現過的動作-環境組合,模型的預測能力會下降;
3)雖然我們驗證了系統執行探索性動作的能力,但尚未評估此類探索在任務求解中的實際有效性,且切換至探索行為仍依賴于人工調節的超參數。
未來的工作將聚焦于擴展該框架以應對上述局限。一個直接的步驟是在需要多步動作選擇、且必須通過探索才能完成任務的環境中評估我們的框架。其他有前景的方向包括:開發一種能在目標導向與探索模式之間自適應切換的機制,以及將動作模型擴展為可表示可變長度動作序列的形式。最終,本工作朝著長期目標邁出了重要一步——即構建更強大的機器人,使其能夠通過融合目標導向與探索性行為,在諸如家庭服務等充滿不確定性的現實環境中高效運行。
![]()
附錄 II
補充實驗
為驗證我們框架的可擴展性,我們進一步在 CALVIN D 基準 [47] 上對其進行了評估。該基準提供了大量非結構化的人類操作數據。盡管該環境支持基于語言的目標條件設定,我們在實驗中僅使用了基于圖像的目標條件。
在此環境中,我們將所提出的框架與 GC-DP 進行了比較。評估涵蓋八項任務:滑塊左移/右移(Slider)、抽屜打開/關閉(Drawer)、燈泡開啟/關閉(Lightbulb)以及 LED 開啟/關閉(LED)。若任務在 150 個時間步內完成,則視為成功。我們提出的框架沿用了主實驗中的超參數設置,而 GC-DP 則被訓練為從過去四個時間步的觀測歷史中預測未來 28 步的動作序列,并每 16 步重新規劃一次。
如表 III 所示,我們提出的方法在 Slider 和 Drawer 任務上始終優于 GC-DP,且在所有任務的平均成功率上也更高。這些結果表明,我們所采用的時間層次化世界模型與抽象動作相結合的方法不僅在主實驗設置中有效,在更復雜、長時程的操作場景中同樣具有魯棒性和有效性。
![]()
![]()
原文鏈接: https://arxiv.org/pdf/2512.01924
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.