<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      用于延遲和長時域環境的深度主動推理智能體

      0
      分享至

      DEEP ACTIVE INFERENCE AGENTS FOR DELAYEDAND LONG-HORIZON ENVIRONMENTS

      用于延遲和長時域環境的深度主動推理智能體

      https://openreview.net/pdf?id=HbUeoq8WIC



      摘要
      隨著世界模型智能體的近期成功——其拓展了基于模型的強化學習核心思想,通過學習一個可微分模型,以實現跨多樣化任務的高效樣本控制——主動推理(AIF)提供了一種互補的、基于神經科學的范式,可在單一由生成模型驅動的概率框架內統一感知、學習與行動。盡管前景廣闊,現有實用型AIF智能體仍依賴精確的即時預測與窮舉式規劃;這一局限在需進行長時程(數十至數百步)規劃的延遲環境中尤為突出。此外,多數現有智能體僅在機器人或視覺基準上評估,此類任務雖契合生物智能體特性,卻遠未達到真實工業場景的復雜程度。

      針對上述局限,本文提出一種生成–策略架構,其特點包括:(i)多步隱狀態轉移機制,使生成模型能通過單次前瞻預測整個規劃時域;(ii)集成式策略網絡,既參與隱狀態轉移,又接收期望自由能的梯度信號;(iii)交替優化方案,利用經驗回放緩沖區分別更新模型與策略;(iv)單步梯度規劃機制,實現長時程規劃,從而將耗時的窮舉規劃完全移出控制回路。

      我們在一個模擬真實工業場景(含延遲與長時程特性)的環境中評估所提智能體。實證結果證實了該方法的有效性:將世界模型與AIF形式體系耦合,可構建出端到端的概率控制器,在無手工設計獎勵函數、無昂貴規劃開銷的前提下,實現延遲、長時程環境中的高效決策。

      1 引言
      數據驅動決策算法,尤其是強化學習(RL)領域,已取得顯著進展:智能體通過與環境交互并接收反饋來學習策略(Sutton & Barto, 2018)。與此同時,深度學習為表征提取與模式識別提供了強大框架,亦支持概率建模(LeCun 等, 2015;Bishop & Bishop, 2024),推動了計算機視覺、自然語言處理、生物醫學、金融及機器人等領域的進步。深度強化學習融合了上述思想——例如,在深度Q網絡(DQN)中采用神經函數逼近器,即在Atari游戲中達到了人類水平性能(Mnih 等, 2015)。基于模型的強化學習(MBRL)更進一步,顯式引入(學習所得或給定的)環境模型以指導學習與規劃(Moerland 等, 2023)。類似地,“世界模型”(world models)概念聚焦于學習環境的生成模型,以利用其對未來結果的表征與預測能力,尤其服務于決策過程(Hafner 等, 2025);事實上,已有理論證明,通用智能體必然包含內蘊的世界模型(Richens 等, 2025)。這與認知科學中關于生物大腦的理論高度契合——后者強調內生生成模型的核心作用(Friston 等, 2021)。在更廣義的理論層面,主動推理(AIF)作為神經科學新興領域,通過內生生成模型,將感知、行動與學習統一于生物智能體之中(Friston 等, 2017;Parr 等, 2022)。

      AIF植根于自由能原理(FEP),將神經推理與學習形式化為在不確定性下對“驚奇”(surprise)的最小化(Friston, 2010)。它提供了一個自洽的數學框架,通過貝葉斯推斷校準概率模型,可直接從原始感官輸入(即觀測)中實現學習與目標導向行動(Parr 等, 2022)。該框架有望構建模型驅動、自適應的智能體——支持端到端訓練,同時提供不確定性量化與一定可解釋性(Taheri Yeganeh 等, 2024;Fountas 等, 2020)。與世界模型及MBRL類似,AIF亦依賴于一個環境內部模型,有助于捕獲系統動力學并提升樣本效率。然而,盡管AIF框架潛力巨大,其實用智能體通常仍依賴精確的即時預測與大規模規劃(Fountas 等, 2020)。此類依賴會損害性能,尤其在延遲環境中——行動后果無法即時觀測(RL中常表現為稀疏獎勵),從而加劇了信用分配問題(Sutton & Barto, 2018)。同樣,長時程任務要求在擴展時間跨度上進行高效規劃,帶來額外挑戰。這些困難廣泛存在于各類優化任務中——如制造系統(Taheri Yeganeh 等, 2024)、機器人(Hafner 等, 2020, 2025;Nguyen 等, 2024)及蛋白質設計(Angermueller 等, 2019;Wang 等, 2024)——其結果往往需歷經多步操作或待全過程完成后方才顯現。

      本文探討如何釋放AIF框架的潛力,構建在延遲且需長時程規劃的環境中依然高效的智能體。近期深度生成建模的進展(Tomczak, 2024)已在多領域實現突破——如AlphaFold達成高精度蛋白質結構預測(Abramson 等, 2024)。鑒于生成模型是AIF的核心,我們的目標是拓展其作為世界模型的能力與保真度,實現對遙遠未來的預測。具體而言,我們提出一種端到端訓練、符合AIF形式體系的生成–策略聯合架構,其中生成模型可進行長時程推演,并在優化過程中向策略網絡提供梯度信號。

      本文貢獻總結如下:
      ? 提出一種符合AIF原理的生成–策略架構,支持長時程預測,并向策略提供可微分信號;
      ? 推導出一種聯合訓練算法:交替更新生成模型與策略網絡,并闡明如何在規劃階段通過策略梯度更新利用所學模型;
      ? 在工業場景中實證驗證該方法的有效性,凸顯其對延遲與長時程任務的適用性。

      本文其余部分組織如下:第2節回顧AIF形式體系與規劃策略;第3節詳述所提方法與智能體架構;第4節呈現實驗結果;第5節總結啟示并展望未來方向。

      2 背景

      基于世界模型(world models)概念的智能體拓展了基于模型的強化學習(MBRL)的核心思想,通過學習一個可微分的預測模型,使其能在模型內部進行“想象”(imaginations),從而促進策略優化與規劃(Ha & Schmidhuber, 2018;Hafner 等, 2025)。這類智能體構建能同時捕獲空間與時間特性的隱變量表征,用以建模系統動力學并預測未來狀態(Ha & Schmidhuber, 2018)。其中,支配該動力學的生成模型架構,及其如何被用于策略學習與規劃,構成了該概念的基礎。許多設計借鑒了變分自編碼器(VAE)結構(Kingma & Welling, 2013),并常輔以循環狀態空間模型(RSSM)以增強記憶能力、輔助信用分配(Hafner 等, 2019, 2025;Nguyen 等, 2024)。與此同時,強化學習方法(如Actor–Critic)被整合進該模型,以優化策略(Hafner 等, 2020, 2025;Nguyen 等, 2024),從而產生高度樣本高效的智能體——其決策更多依賴“想象”推演,而非大量與環境交互。

      主動推理(AIF)則提供了一種互補的、植根于神經科學的視角,它涵蓋了預測編碼理論——該理論主張:大腦在不確定性下通過最小化相對于其內生世界生成模型的預測誤差來運作(Millidge 等, 2022)。AIF將大腦刻畫為一個層級系統,持續執行變分貝葉斯推斷以抑制預測誤差(Parr 等, 2022)。其最初被提出,旨在解釋生物體如何通過不斷更新信念并從感官觀測中推斷行動,來主動控制與導航環境(Parr 等, 2022)。AIF強調觀測對行動的依賴性(Millidge 等, 2022);相應地,它主張:在校準生成模型的同時,行動的選擇應與偏好一致,并降低不確定性,從而統一感知、行動與學習(Millidge 等, 2022)。自由能原理(FEP)為此框架提供了數學基石(Friston 等, 2010;Millidge, 2021),且日益增多的實證研究支持其生物學合理性(Isomura 等, 2023)。基于AIF的智能體已被應用于機器人、自動駕駛與臨床決策支持系統(Pezzato 等, 2023;Schneider 等, 2022;Huang 等, 2024),在不確定、動態環境中展現出穩健性能。本文采納Fountas 等(2020)提出的AIF形式體系;該體系后續由Da Costa 等(2022)與Taheri Yeganeh 等(2024)拓展,并已被證實在不同環境(如視覺與工業任務)中均能產出高效智能體。

      2.1 形式體系

      在主動推理(AIF)框架內,智能體采用一個集成的概率框架,該框架包含一個內部生成模型(Da Costa 等,2023),并配備推理機制,使其能夠表征世界并據此行動。該框架假設為部分可觀測馬爾可夫決策過程(Kaelbling 等,1998;Da Costa 等,2023;Paul 等,2023),其中智能體與環境的交互被形式化為三個隨機變量——觀測、隱狀態和動作——在時刻 t 記作 (o?, s?, a?)。與強化學習(RL)不同,該形式體系不依賴環境提供的顯式獎勵反饋;相反,智能體僅從其接收到的觀測序列中進行學習。智能體的生成模型由參數 θ 參數化,定義于截止時間 t 的軌跡上,記為 Pθ(o?:?, s?:?, a?:???)。智能體的行為受“最小化驚奇”的指令驅動,該驚奇被表述為當前觀測的負對數證據:?log Pθ(o?)(Fountas 等,2020)。當與世界交互時,智能體從以下兩個角度實現這一指令(Parr 等,2022;Fountas 等,2020):

      1. 利用當前觀測,智能體通過優化參數 θ 來校準其生成模型,以獲得更準確的預測。數學上,該驚奇可按如下方式展開(Kingma & Welling, 2013):


      這提供了一個上界,通常被稱為負證據下界(ELBO)(Blei 等,2017)。它被廣泛用作訓練變分自編碼器的損失函數(Kingma & Welling, 2013)。在主動推理(AIF)中,它對應于變分自由能(VFE),其最小化可降低預測相對于實際觀測所產生的驚奇(Fountas 等,2020;Sajid 等,2022;Paul 等,2023)。

      1. 展望未來,當智能體需要規劃行動時,可獲得對未來預測的驚奇估計。考慮一個動作序列——或稱策略——記為 π,其中 τ ≥ t,這對應于 ?log P(o? | θ, π),該值可類比于 VFE 進行估計(Schwartenbeck 等,2019):


      從概念上講,期望自由能(EFE)中各項的貢獻可解釋如下(Fountas 等,2020):

      • 外在價值

        (式4a)——即 期望驚奇 ,用于度量在策略 π 下所預測結果與智能體對結果的先驗偏好之間的不匹配程度。該項類比于強化學習(RL)中的獎勵:它量化了預測結果與偏好結果之間的偏離程度。但與“最大化累積獎勵”不同,智能體旨在 最小化相對于偏好觀測的驚奇

      • 狀態認知不確定性

        (式4b)——即獲取新觀測前后,智能體對隱狀態信念之間的 互信息 。該項激勵智能體探索那些可降低其對隱狀態不確定性的環境區域(Fountas 等,2020)。

      • 參數認知不確定性

        (式4c)——即在給定新觀測下,關于模型參數的 期望信息增益 。該項亦對應于 主動學習好奇心 (Fountas 等,2020),反映了模型參數 θ 在生成預測中的作用。

      后兩項分別刻畫了兩種不同形式的認知不確定性(epistemic uncertainty),為智能體提供了內在驅動力,促使其主動探索并精煉其生成模型。它們在功能上類比于RL中的內在獎勵,用于平衡探索–利用權衡。類似的信息探索或好奇心信號,構成了諸多成功RL算法的基礎——從好奇心驅動的獎勵增益(Pathak 等,2017;Burda 等,2018),到Soft Actor-Critic所優化的熵正則化目標(Haarnoja 等,2018)——并已被證實可催生高效、樣本節約型的智能體。

      2.2 規劃策略
      基于模型的強化學習(MBRL)智能體通常在行動前利用其世界模型“想象”未來軌跡,以額外的計算開銷換取樣本效率與性能的顯著提升。蒙特卡洛樹搜索(MCTS)(Coulom, 2006;Silver 等, 2017)是一種典型的搜索算法,它以受限方式有選擇性地探索有前景的軌跡。其有效性在AlphaGo Zero(Silver 等, 2017)中得到突出體現,后續MuZero進一步將學習所得的隱狀態動力學模型直接嵌入搜索循環中(Schrittwieser 等, 2020)。在主動推理(AIF)框架中,智能體在執行動作前的規劃目標即為最小化期望自由能(EFE);數學上,該目標對應于負的累積EFE,即 G,定義如下:


      其中 σ(·) 表示 Softmax 函數。智能體在策略 π 下,通過其生成模型進行軌跡推演(roll-outs),以評估期望自由能(EFE)。然而,對所有可能的 π 計算此值是不可行的,因為策略空間會隨規劃深度呈指數增長。Fountas 等(2020)引入了一個輔助模塊,并結合 MCTS 以緩解這一障礙。他們提出一個識別模塊(Piché 等, 2018;Marino 等, 2018;Tschantz 等, 2020),參數化為 φ?,形式如下:Habit, Qφ?(a?),該模塊利用從 MCTS 返回的先驗分布 P(a?) 來近似動作的后驗分布(Fountas 等, 2020)。這類似于生物智能體中快速且習慣性的決策機制(Van Der Meer 等, 2012)。他們使用該模塊在規劃過程中快速擴展搜索樹,隨后計算葉節點的 EFE 并沿軌跡反向傳播。迭代地,最終形成一棵加權樹,并對訪問過的節點進行記憶更新。他們還利用規劃器策略與“習慣”之間的 Kullback–Leibler 散度作為精度,調節隱狀態(Fountas 等, 2020)。

      另一種增強規劃的方法是采用混合時域(hybrid horizon)(Taheri Yeganeh 等, 2024),即在規劃過程中,將基于即時下一步預測的短視 EFE 項,與一個額外項結合,以兼顧更長時域。Taheri Yeganeh 等(2024)采用了一個 Q 值網絡 Qφ?(a?),用于表征動作的攤銷推理(amortized inference),該網絡以無模型方式、僅依賴外在價值進行訓練。這些項隨后在規劃器中組合如下:


      平衡長期外在價值與短期認識驅動。

      現代世界模型智能體越來越多地將前瞻轉移到潛在空間;PlaNet(Hafner 等人, 2019)在使用潛在超調訓練的 RSSM 內部使用交叉熵方法 rollout,而 Dreamer 家族(Hafner 等人, 2020; 2025)通過數百條想象軌跡傳播解析價值梯度,無需樹搜索。EfficientZero(Ye 等人, 2021)將 AlphaZero 風格的 MCTS 與潛在空間想象相結合,僅用 100k 幀就超越了人類 Atari 表現。這些方法通常將多步模型 rollout 與一個演員(策略)耦合,并且經常與一個在想象過程中查詢的評論家(價值)網絡結合。在每個模擬步驟中,

      策略提出下一個動作,而評論家提供一個引導值,從而實現高效的多步前瞻,而無需枚舉完整的動作樹。Taheri Yeganeh 等人 (2024) 沒有順序采樣動作和狀態,而是訓練了多步潛在轉換,條件為重復動作;在規劃期間,單個轉換預測結果,同時保持一個動作固定若干時間步。這樣,通過重復動作模擬捕捉了動作在長時間范圍內的影響。雖然它可以與 MCTS 結合,但這種近似有助于在高度隨機控制任務中,基于單一前瞻的 EFE 區分不同動作(Taheri Yeganeh 等人, 2024)。它僅限于離散動作,無法超越重復動作,并且仍需要在每次動作前通過 EFE 計算進行規劃。

      3 深度主動推理智能體
      從整合習慣的 MCTS 到混合視野與基于梯度的潛在想象,當前最先進的智能體日益將策略學習與規劃相結合,以捕捉對可擴展性與樣本高效控制至關重要的長期效應。其中,一種突出的方法是潛在想象(latent imagination),尤以 Dreamer 系列智能體(Hafner 等,2025;2019;2020)為代表——它們利用遞歸狀態空間模型(RSSM)在潛在空間中執行序列 rollout。然而,除其計算成本較高外,該方法還面臨誤差隨網絡反復推斷與采樣而累積的風險。這些模型通過在每條潛在狀態軌跡上采樣動作,將策略網絡嵌入潛在空間,因而策略優化依賴于模型想象中大量采樣步驟。

      一種更簡潔的策略是:假定生成模型已知策略函數的確切形式——換言之,即模型擁有策略網絡本身的參數。我們可訓練此類模型:一旦給定用于在該視野內與環境交互的策略參數,便可通過單步前瞻(single look-ahead)直接生成對遠期未來的預測。由此,期望自由能(EFE)可直接在整個視野上計算,并可通過反向傳播梯度以最小化 EFE,從而引導智能體朝向其內在與外在目標。鑒于策略通過 EFE 的梯度下降進行優化,該方法可自然擴展至離散與連續動作空間,而不再局限于早期主動推理(AIF)智能體實現中所采用的離散動作選擇(如 Fountas 等,2020)。本文采用這種與主動推理一致的生成式策略建模(generative-policy modeling)方案,未引入通常用于進一步增強世界模型或 AIF 智能體的額外機制。

      3.1 架構

      該智能體至少包含一個直接與環境交互的策略網絡,以及一個用于優化該策略的生成模型。在策略條件下,生成模型構成了主動推理(AIF)的核心,并可通過多種架構實例化。在本工作中,我們采用一種通用但常用的自編碼器組合結構(Fountas 等人, 2020),以實例化第 2.1 節中的形式化體系,該體系要求如圖 1 所示的緊密耦合模塊。通過利用攤銷推斷(Kingma & Welling, 2013; Marino 等人, 2018; Gershman & Goodman, 2014)來擴展推斷能力(Fountas 等人, 2020),生成模型由兩組參數化:θ = {θs, θo} 用于先驗生成,φ = {φs} 用于識別。相應地,編碼器 Qφs(st) 通過將當前采樣的觀測值 ?t 映射到潛在狀態 st 的后驗分布,執行攤銷推斷(Margossian & Blei, 2023)。此處的關鍵區別在于,我們不再在潛在動力學內部采樣動作,而是引入了一個策略函數——或稱演員(Actor)——Qφa(at | ?t),該函數自身以參數 φa 推斷出動作的分布。因此,我們為該函數本身引入了一個顯式表示,映射關系為 Π: Qφa → π?,從而得到 π?(φa)。這種方法在神經隱式表示中很常見(Dupont 等人, 2022);最近的研究還表明,具有多樣化計算圖的神經函數可以被高效嵌入(Kofinas 等人, 2024)。在演員條件下,轉移模塊Pθs(st+1 | s?t, π?) 將潛在動力學外推至規劃視野 H,根據時間 t 采樣的潛在狀態,生成 st+H 的分布,而演員——以 φa 表示——在整個視野內被假定為固定不變。最后,解碼器 Pθo(ot+H | s?t+H) 將預測的潛在狀態轉換回未來觀測值的分布。生成模型中的這三個模塊均由一個神經網絡實現,該網絡輸出對角多元高斯分布的參數,從而近似一個預選的似然族。它們可以通過最小化 VFE(公式 1)進行端到端訓練,而演員則通過最小化 EFE(公式 4)進行優化——使用來自已校準模型的預測。通過這種方式,智能體統一了形式化體系中推導出的兩種自由能范式。


      除了演員(Actor)和轉移模塊(Transition)——它們通過單步前瞻處理潛在動力學——之外,該架構類似于變分自編碼器(VAE)(Kingma & Welling, 2013);然而,其他生成機制,例如擴散模型或基于記憶的 RSSM 模型,也可擴展以支持相同的目標。

      3.2 策略優化

      我們提出了一種簡潔而有效的公式化方法,將演員嵌入生成模型中,使其作為規劃器通過梯度下降最小化期望自由能(EFE)。在固定策略 π?(φ?) 的條件下,模型生成預測分布 Pθ(o??? | φ?),并由此計算 EFE,記作函數 Gθ(?, φ?)。策略優化隨后根據梯度 ?φ? Gθ(?, φ?) 更新演員參數。大多數世界模型智能體通過在想象過程中采樣動作引入隨機性,從而促進探索——通常輔以策略梯度中的輔助項。這導致了對想象軌跡上策略的蒙特卡洛估計,然后基于回報對其進行微分(Hafner 等人, 2020)。相比之下,我們的方法假設策略的確切形式已整合進動力學中,而探索則由基于生成模型的主動推理(AIF)形式化框架驅動。

      為了有效估計公式 4 中 EFE 的不同組成部分,Fountas 等人 (2020) 采用了多層次的蒙特卡洛采樣。雖然他們的原始公式包含了在多步視野上的采樣動作,但在使用具有深度時間超調的集成式演員時,相同的結構和采樣方案仍具優勢。類似地,我們采用祖先采樣來生成預測 Pθ(o??? | φ?),并在網絡中利用 dropout(Gal & Ghahramani, 2016)。它與從潛在分布中進一步采樣相結合,以計算計算 EFE 項所需的熵。關鍵的是,在 AIF 框架下,智能體需要一種對預測的先驗偏好來引導行為——這通過外在價值(即公式 4a)進行形式化表達。因此,我們定義了一個解析映射 Ψ:Pθ(oτ) → [0,1],將預測分布轉換為連續的偏好譜。

      不同于依賴累積獎勵回報的強化學習(RL),這種公式化允許智能體表達更通用、更細致的偏好形式。在實踐中,為 RL 智能體設計合適的獎勵函數仍是一項困難的任務,往往導致稀疏或手工設計的信號,其設計和計算成本高昂。然而,偏好的靈活性也帶來了挑戰——尤其當智能體擁有復雜的偏好空間,并且必須依賴短視的 EFE 近似時。我們的方法通過優化深度時間預測下的規劃,緩解了這一問題,并支持對外在價值進行更長期的評估。

      3.2.1 訓練與規劃

      在訓練過程中,生成模型逐步學習不同的演員參數 φ? 如何影響動態演化;而在策略優化階段,該已習得的動態模型則被用于對演員進行微分,以降低其 EFE(期望自由能)或“意外”(surprise)。有效策略學習的關鍵在于世界模型的準確性——這是主動推理(AIF)框架(Friston 等,2010;Parr 等,2022;Fountas 等,2020)及預測編碼(Millidge 等,2022)的理論基礎。

      為改進模型訓練,我們引入了經驗回放機制(experience replay)(Mnih 等,2015),使用經驗記憶/緩沖區 M,從中采樣經驗批次進行訓練,同時確保每個批次均包含最近一次的經驗。我們針對這些經驗計算公式 1 中的 VFE(變分自由能),并采用 β-正則化對模型進行訓練。

      在模型更新后,我們在長度為 H 的想象軌跡中,對一批觀測值(包括先前與當前觀測)計算 EFE 并對其進行微分,從而以類似于世界模型方法的方式(Hafner 等,2020;2025;Ha & Schmidhuber,2018)訓練演員。由此形成一個聯合訓練算法(算法 1),交替更新生成模型與策略,并借助該模型通過策略梯度引導規劃。

      這種方法——即策略學習(policy learning),而非顯式的動作規劃——緩解了 EFE 的“有限視野”(bounded-sight)限制:由于策略在規劃視野內多樣化的場景中被迭代訓練,其有效視野可延伸至名義視野 H 之外。近期基于 AIF 的智能體研究也強調了將策略網絡與 EFE 目標相結合的優勢(Nguyen 等,2024)。

      訓練完成后,當智能體模型被固定,仍可利用該模型進行規劃。具體而言,可每隔 H 步在觀測層面上施加一次基于 EFE 的梯度更新,從而對策略進行即時微調,以適配當前短期視野。

      4 實驗

      大多數現有的主動推理(AIF)智能體已在一系列通常由生物體(如人類和動物)執行的任務中展現出有效性。這些任務往往涉及基于圖像的觀測(Nguyen 等,2024)。例如,Fountas 等人(2020)在 Dynamic dSprites(Higgins 等,2016)和 Animal-AI(Crosby 等,2019)上評估了其智能體——這些任務生物體通常可較輕松完成。AIF 還已成功應用于機器人領域(Lanillos 等,2021;Da Costa 等,2022),包括物體操作(Nguyen 等,2024;Schneider 等,2022),與人類自然行為高度一致。這種有效性主要歸因于 AIF 深植于對生物大腦中決策機制的理論建模(Parr 等,2022)。

      然而,將 AIF 應用于更復雜的領域——例如工業系統控制——則面臨顯著挑戰。即便人類在這些場景中也可能難以設計出高效策略。此類環境通常具有高度隨機性,短期觀測軌跡易被噪聲主導,從而使得以自由能優化為目標的學習與動作選擇變得困難。相比之下,世界模型智能體通常采用基于記憶(例如循環)架構(Hafner 等,2020;2025),因此該問題對其影響較小。此外,現實環境常混合離散與連續觀測模態,加劇了生成與采樣預測的復雜性。延遲反饋與長視野需求進一步挑戰了 AIF 框架下的規劃能力。另外,諸多現實任務需高頻、快速決策,并在非回合制且高度隨機的環境中維持長期穩定表現。

      我們在一個經過驗證的、高保真的工廠級工業仿真器中(Loffredo 等,2023b)評估了本方法,并在(Taheri Yeganeh 等,2024)提出的可證明存在延遲、長視野設定下進行測試。該源于真實世界的測試平臺為驗證本概念提供了具挑戰性且具代表性的基準:它要求智能體進行長視野規劃,以引導一類高度隨機問題走向期望性能目標(詳見附錄 B)。

      4.1 結果

      為驗證本智能體在上述環境中的性能,我們采用了嚴格的評估方案(詳見附錄 D),其核心基于算法 1。不同于以往借助與多個環境實例并行交互以提升訓練效率的工作(Fountas 等,2020),我們的智能體在每個訓練輪次(epoch)中僅與單一環境實例交互,反映了更具挑戰性的設定。隨后,我們在若干隨機初始化的環境中評估訓練所得智能體性能,并選取表現最佳的實例進行為期一個月的仿真運行,以評估其能效與產量損失,并與基線場景(即無任何控制、設備持續運行)進行對比。

      我們還構建了一個組合式偏好得分(compositional preference score)——類比于強化學習中的獎勵函數——基于時間窗口內的關鍵績效指標(KPI),涵蓋能耗與產量,作為智能體整體性能的綜合指標;該得分本身亦構成智能體觀測的一部分。為在潛在空間中進一步施加正則化、使其逼近標準正態分布,我們在 Sigmoid 函數的非飽和區間內使用該函數。由于我們需編碼演員函數(actor function)——其本質是一個計算圖(Kofinas 等,2024)——我們采用了一個簡潔的、非參數化的映射 Π:將輸入與第一隱層及輸出層的值進行拼接。鑒于其輸入–輸出結構及模型對該映射的持續訓練,該映射可有效近似演員的神經函數(詳見附錄 C)。

      我們嚴格依據上述方案,在完全復現真實生產系統的環境中實現了本智能體(參數經驗證符合實際工況)。圖 2 展示了在超前視野 H = 300 條件下的智能體性能:在每輪訓練(100 次迭代)后的評估中,智能體所生成觀測的偏好得分持續提升(圖 2a),且該提升與能效增長正相關(圖 2b)。值得注意的是,用于策略更新的想象軌跡的 EFE(圖 2c)隨智能體對系統控制能力的增強而下降;這一趨勢同時體現在 EFE 的外在價值項與不確定性項中。


      由于策略優化高度依賴于一個魯棒生成模型的學習——且演員被顯式整合于其中——智能體逐步提升了其預測能力,并在觀測空間的連續部分(圖 2d,偏好得分)與離散部分(圖 2e,f,機器與緩沖狀態)均降低了重建誤差。盡管 EFE 與整體性能最終趨于穩定,生成模型仍持續改進,表明對未來觀測的完全重建并非實現有效控制的必要條件

      最后,我們在十次重復的、為期一個月的仿真交互中評估了訓練完成的智能體,并在規劃過程中每 H 步施加一次梯度更新。Loffredo 等人(2023a)在同一環境中測試了多種無模型強化學習智能體(包括 DQN、PPO 與 TRPO),在不同獎勵參數 φ 下,DQN 表現最優且接近理論最優解。如表 1 所示,深度主動推理(DAIF)智能體超越了最佳基線:在保持產量損失可忽略的前提下,單位產量的能源效率提升了 10.21% ± 0.14%

      深度的影響:即使超前視野更長(例如 H = 1000 步),智能體仍能提升性能。我們進行了不同超前視野 H 的實驗,以評估智能體的性能。如圖 3 所示,我們報告了驗證階段最佳輪次所對應的偏好得分,并提取了能耗效率提升的百分比。結果表明,即使在更長的超前視野下,智能體仍能學習到魯棒的策略。


      5 結論與未來工作

      我們提出了深度主動推理(Deep Active Inference, DAIF)智能體,其將多步潛在轉移與一個顯式、可微分的策略整合于單一生成模型內部。通過將動態模型超前預測至長視野,并將期望自由能(EFE)梯度反向傳播至策略中,該智能體無需進行窮舉式的樹搜索即可完成規劃;它可自然擴展至連續動作空間,并保持主動推理中驅動行為的認知性探索–利用平衡(epistemic–exploration balance)。我們在一個高保真工業控制問題上對 DAIF 進行了評估,其特征復雜性在以往基于主動推理的研究中鮮有觸及。實證表明,DAIF 在高度隨機、反饋延遲且需長視野規劃的環境中,成功實現了模型學習與控制之間的閉環協同:僅需每 H 步施加一次梯度更新,訓練完成的智能體即可有效規劃并取得優異性能——超越無模型強化學習基線;與此同時,其世界模型即便在策略趨于穩定后,仍持續提升預測精度。

      局限性與未來工作
      盡管預測 H 步轉移避免了昂貴的逐步規劃循環,智能體仍需在每 H 次交互后收集經驗并存入回放緩沖區以供訓練,因此其樣本效率仍有提升空間。為在每次新環境交互后更新世界模型——從而反映視野內不斷演化的演員參數——我們需要一個算子來聚合該序列的演員表征。循環模型(recurrent models)是自然的選擇,但其序列展開會引入延遲,并可能阻礙梯度流動。一種更輕量的替代方案是將 H 個嵌入視為(近似)無序集合,并采用集合函數(set function)進行聚合(Zaheer 等,2017);在集合池化之前,可將簡單的位置嵌入(如正弦位置編碼,Vaswani 等,2017)與嵌入拼接,以保留時序結構。該方法允許我們將視野分段處理——甚至細化至單步粒度——同時仍可通過聚合當前策略表征支持 EFE 梯度的反向傳播。

      此外,(神經)算子學習(operator-learning)技術有望實現函數空間中分辨率不變的聚合(Li 等,2020;Lu 等,2021)。其他可能的拓展方向包括:

      • 將當前 VAE 基礎的世界模型替換為基于擴散模型或流匹配(flow-matching)的生成器(Huang 等,2024);
      • 采納演員–評論家(actor–critic)優化框架(如 Dreamer 及相關世界模型智能體所采用的:Hafner 等,2020;2025;Nguyen 等,2024);
      • 引入正則化方案以穩定 EFE 梯度更新并降低其方差。

      在非平穩環境中快速適應——這正是無模型智能體常面臨困難之處——仍是一個極具前景的研究方向。

      總體而言,本工作架起了神經科學啟發的主動推理當代世界模型強化學習之間的橋梁,證明了一個緊湊、端到端的概率性智能體,可在那些人工設計獎勵函數與逐步規劃均不切實際的領域中實現高效控制。

      原文鏈接:https://openreview.net/pdf?id=HbUeoq8WIC

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      1月27日北京&東方衛視放大招!8部大劇任你挑

      1月27日北京&東方衛視放大招!8部大劇任你挑

      情感大頭說說
      2026-01-28 03:12:32
      美企CEO:如果東方大國突破了先進光刻機,對我們就是致命一擊!

      美企CEO:如果東方大國突破了先進光刻機,對我們就是致命一擊!

      達文西看世界
      2026-01-27 16:00:39
      ICE指揮官被撤職,“黨衛軍”暫時偃旗息鼓?

      ICE指揮官被撤職,“黨衛軍”暫時偃旗息鼓?

      勝研集
      2026-01-27 12:59:03
      8000萬少一分不賣!英超球隊想報價20歲射手,國米設置護城河

      8000萬少一分不賣!英超球隊想報價20歲射手,國米設置護城河

      里芃芃體育
      2026-01-27 12:00:07
      兩年了,為何許家印遲遲不判刑?真相比你想象的更復雜!

      兩年了,為何許家印遲遲不判刑?真相比你想象的更復雜!

      苗苗情感說
      2026-01-27 01:34:47
      她14歲已是“人間尤物”,被首富看中花10億娶回家,8年生了四胎

      她14歲已是“人間尤物”,被首富看中花10億娶回家,8年生了四胎

      LULU生活家
      2026-01-16 18:50:49
      21歲白血病女生尋親新進展:已轉運至蘇州治療,有人主動認親核對時間后表示年份不符

      21歲白血病女生尋親新進展:已轉運至蘇州治療,有人主動認親核對時間后表示年份不符

      瀟湘晨報
      2026-01-27 11:47:28
      1939年,外蒙古處決了6.8萬名喇嘛,背后是有何隱情嗎?

      1939年,外蒙古處決了6.8萬名喇嘛,背后是有何隱情嗎?

      深度報
      2025-12-12 22:43:56
      馬筱梅親媽來北京幫帶孩子,馬媽媽稱:暖氣太熱,晚上都把暖氣關

      馬筱梅親媽來北京幫帶孩子,馬媽媽稱:暖氣太熱,晚上都把暖氣關

      天啟大世界
      2026-01-28 03:52:52
      中超轉會新消息:泰山、蓉城各添1名猛將,申花隊放棄2000萬國腳

      中超轉會新消息:泰山、蓉城各添1名猛將,申花隊放棄2000萬國腳

      何老師呀
      2026-01-27 22:54:17
      12歲玥兒穿價值7000元外套,很貴氣!越長越像大S

      12歲玥兒穿價值7000元外套,很貴氣!越長越像大S

      大眼妹妹
      2026-01-27 08:40:10
      想跑沒門!新疆富豪夫婦套現7億,沒等錢到賬,老板娘先被帶走了

      想跑沒門!新疆富豪夫婦套現7億,沒等錢到賬,老板娘先被帶走了

      陳博世財經
      2026-01-27 17:04:14
      藥師提醒:銀杏葉片、血塞通、復方丹參片,心腦血管用藥別再選錯

      藥師提醒:銀杏葉片、血塞通、復方丹參片,心腦血管用藥別再選錯

      蜉蝣說
      2026-01-17 18:36:03
      中央和國家機關黨的工作暨紀檢工作會議在京召開

      中央和國家機關黨的工作暨紀檢工作會議在京召開

      農民日報
      2026-01-27 20:56:03
      狂飆1034.71%!國產半導體最大贏家現身

      狂飆1034.71%!國產半導體最大贏家現身

      半導體產業縱橫
      2026-01-27 18:26:51
      Dior紅毯太真實!劉嘉玲臉好腫,溫碧霞戴假發片老氣,王玉雯贏麻

      Dior紅毯太真實!劉嘉玲臉好腫,溫碧霞戴假發片老氣,王玉雯贏麻

      洲洲影視娛評
      2026-01-27 12:08:04
      委內瑞拉變局:特朗普昔日“傀儡”為何反水?

      委內瑞拉變局:特朗普昔日“傀儡”為何反水?

      冒泡泡的魚兒
      2026-01-28 03:51:45
      楊鳴被曝離任不到24小時,令人擔心的事發生,烏戈、郭士強被牽連

      楊鳴被曝離任不到24小時,令人擔心的事發生,烏戈、郭士強被牽連

      不寫散文詩
      2026-01-27 15:17:57
      楊廣荒唐到什么程度?在皇宮內立下奇葩規矩,讓妃子宮女十分難堪

      楊廣荒唐到什么程度?在皇宮內立下奇葩規矩,讓妃子宮女十分難堪

      銘記歷史呀
      2026-01-06 01:08:47
      警惕!當白銀、銅都和黃金一起講故事,你的財富可能正被悄悄轉移

      警惕!當白銀、銅都和黃金一起講故事,你的財富可能正被悄悄轉移

      藍色海邊
      2026-01-28 03:42:22
      2026-01-28 06:15:00
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1182文章數 18關注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關鍵信息

      頭條要聞

      美報告稱中國是其19世紀以來面對過的最強大國家

      頭條要聞

      美報告稱中國是其19世紀以來面對過的最強大國家

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      張雨綺風波持續發酵,曝多個商務被取消

      財經要聞

      多地對壟斷行業"近親繁殖"出手了

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      教育
      本地
      旅游
      藝術
      房產

      教育要聞

      對話陳妤頡:閃閃發光的賽道,追逐夢想

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      旅游要聞

      紅燈籠映北海:皇家園林里的年味,藏著中國人的精神原鄉!

      藝術要聞

      14位西方著名畫家的女性肖像畫!

      房產要聞

      實景兌現在即!綠城,在海棠灣重新定義終極旅居想象!

      無障礙瀏覽 進入關懷版