TBC-HRL:一種受生物啟發(fā)的穩(wěn)定且可解釋的分層強(qiáng)化學(xué)習(xí)框架
TBC-HRL: A Bio-Inspired Framework for Stable and Interpretable Hierarchical Reinforcement Learning
https://www.mdpi.com/2313-7673/10/11/715
![]()
摘要
分層強(qiáng)化學(xué)習(xí)(HRL)通過分解復(fù)雜的決策過程,在長時域和稀疏獎勵任務(wù)中表現(xiàn)出有效性,但由于層級間不穩(wěn)定、子目標(biāo)調(diào)度效率低下、響應(yīng)延遲以及可解釋性差等問題,其在現(xiàn)實世界中的應(yīng)用仍受限。為應(yīng)對這些挑戰(zhàn),我們提出了一種受生物啟發(fā)的框架——定時仿生電路分層強(qiáng)化學(xué)習(xí)(TBC-HRL),該框架整合了兩種機(jī)制。首先,一種定時子目標(biāo)調(diào)度策略為每個子目標(biāo)分配固定的執(zhí)行持續(xù)時間,模仿動物行為中的節(jié)奏性動作模式,以改善層級間的協(xié)調(diào)并保持目標(biāo)一致性。其次,受秀麗隱桿線蟲(C. elegans)神經(jīng)回路啟發(fā)的神經(jīng)動力學(xué)仿生電路網(wǎng)絡(luò)(NDBCNet),取代了低層控制器中的傳統(tǒng)全連接網(wǎng)絡(luò)。NDBCNet 具有稀疏連接、連續(xù)時間動態(tài)和自適應(yīng)響應(yīng)等特點,能更有效地建模時間依賴關(guān)系,同時提供更好的可解釋性和更低的計算開銷,使其適用于資源受限的平臺。在六個動態(tài)且復(fù)雜的模擬任務(wù)中的實驗表明,與傳統(tǒng) HRL 相比,TBC-HRL 持續(xù)提升了策略穩(wěn)定性、動作精確性和適應(yīng)性,展示了生物啟發(fā)結(jié)構(gòu)在智能控制系統(tǒng)中的實用價值和未來潛力。
關(guān)鍵詞:分層強(qiáng)化學(xué)習(xí);仿生神經(jīng)回路;定時子目標(biāo)調(diào)度;液態(tài)時間常數(shù)網(wǎng)絡(luò);神經(jīng)動力學(xué)控制;機(jī)器人學(xué)習(xí);自主機(jī)器人;智能控制系統(tǒng)
- 引言
強(qiáng)化學(xué)習(xí)(RL)在解決復(fù)雜控制任務(wù)方面展現(xiàn)了強(qiáng)大的潛力,并已在機(jī)器人導(dǎo)航、機(jī)器人操作和自動駕駛等領(lǐng)域得到廣泛應(yīng)用 [1–4]。在各種 RL 架構(gòu)中,分層強(qiáng)化學(xué)習(xí)(HRL)因其“高層決策—低層執(zhí)行”結(jié)構(gòu)而尤為有效,該結(jié)構(gòu)提升了樣本效率,并增強(qiáng)了長時域任務(wù)中的策略泛化能力。通過將復(fù)雜問題分解為子目標(biāo),HRL 緩解了稀疏獎勵的挑戰(zhàn),并支持模塊化策略設(shè)計 [5–8]。然而,盡管具有這些理論優(yōu)勢,HRL 在現(xiàn)實世界部署中仍面臨關(guān)鍵性限制,包括層級間協(xié)調(diào)不穩(wěn)定、缺乏節(jié)奏性子目標(biāo)調(diào)度、低層響應(yīng)不足以及高計算成本 [9,10]。
這些挑戰(zhàn)可歸納為三個方面。
第一,層級間協(xié)調(diào)往往不穩(wěn)定:由于高層策略依賴于低層反饋,在低層策略尚未收斂前便可能產(chǎn)生策略偏差,導(dǎo)致學(xué)習(xí)速度緩慢甚至振蕩;頻繁的子目標(biāo)切換進(jìn)一步引發(fā)調(diào)度失衡,降低行為的一致性與效率[11,12]。
第二,低層控制器的響應(yīng)能力往往不足:傳統(tǒng)全連接網(wǎng)絡(luò)對突發(fā)環(huán)境變化適應(yīng)緩慢,而反應(yīng)式策略則缺乏記憶能力以整合歷史信息,使其難以建模速度變化、障礙分布及能耗模式等時間依賴關(guān)系[13]。
第三,現(xiàn)有策略網(wǎng)絡(luò)在可解釋性與計算效率上均存在局限:大多數(shù)網(wǎng)絡(luò)實現(xiàn)為“黑箱”模型,其決策來源難以追溯,引發(fā)安全隱患;此外,龐大的參數(shù)量及顯著的計算開銷也阻礙了分層強(qiáng)化學(xué)習(xí)在嵌入式或資源受限平臺上的部署[14]。
為應(yīng)對上述問題,近期研究開始借鑒生物神經(jīng)系統(tǒng)與行為機(jī)制的啟發(fā)[15,16]。自然界中,生物體展現(xiàn)出極強(qiáng)的適應(yīng)性、魯棒性與能效性,其神經(jīng)調(diào)控系統(tǒng)形成了感知、決策與控制之間層次分明的結(jié)構(gòu)[17]。例如,昆蟲僅憑極簡的神經(jīng)結(jié)構(gòu)即可實現(xiàn)穩(wěn)定的路徑規(guī)劃與目標(biāo)追蹤;線蟲(C. elegans)僅通過少量相互連接的神經(jīng)元便能產(chǎn)生復(fù)雜的運動行為[18];而脊椎動物則依賴大腦皮層與腦干間的多層級協(xié)調(diào)實現(xiàn)運動控制[19]。這些實例表明,層級化決策結(jié)構(gòu)、突觸調(diào)控機(jī)制以及時間調(diào)控策略對穩(wěn)定行為生成至關(guān)重要。尤其值得注意的是,許多動物僅在完成一個行為單元后才重新評估環(huán)境反饋,從而提升效率與連續(xù)性。這種“目標(biāo)維持—反饋評估—周期性更新”的機(jī)制為高效的子目標(biāo)調(diào)度與穩(wěn)定學(xué)習(xí)提供了靈感。此外,生物神經(jīng)系統(tǒng)具備連接稀疏性、快速響應(yīng)性與強(qiáng)信息保持能力,為設(shè)計具可解釋性與高效率的控制網(wǎng)絡(luò)架構(gòu)提供了新方向。
受上述生物機(jī)制啟發(fā),我們提出TBC-HRL——一種仿生框架,旨在克服傳統(tǒng)分層強(qiáng)化學(xué)習(xí)在調(diào)度穩(wěn)定性、控制響應(yīng)性及計算效率方面的局限。該框架整合了兩個核心組件:
第一,定時子目標(biāo)調(diào)度機(jī)制(Timed Subgoal Scheduling):為每個子目標(biāo)分配固定的執(zhí)行時長(τ),借鑒生物行為中的時間持續(xù)性原理。此舉可減少頻繁子目標(biāo)切換帶來的干擾,改善層級間協(xié)同,并穩(wěn)定低層學(xué)習(xí)過程與響應(yīng)表現(xiàn)。
第二,神經(jīng)動力學(xué)仿生電路網(wǎng)絡(luò)(Neuro-Dynamic Bionic Circuit Network, NDBCNet):受線蟲(C. elegans)神經(jīng)環(huán)路啟發(fā),用于替代低層策略中的傳統(tǒng)全連接網(wǎng)絡(luò)。NDBCNet 具備稀疏連接、連續(xù)時間動態(tài)特性與自適應(yīng)響應(yīng)能力,可有效建模時間依賴關(guān)系,強(qiáng)化行為調(diào)控,并提升模型可解釋性;其緊湊的參數(shù)化設(shè)計進(jìn)一步降低了計算開銷,同時保持魯棒性能。
通過結(jié)合這些機(jī)制,TBC-HRL 實現(xiàn)了更穩(wěn)定、響應(yīng)更迅速且更具可解釋性的控制,突顯了仿生結(jié)構(gòu)在強(qiáng)化學(xué)習(xí)中的實用價值。
本工作的主要貢獻(xiàn)如下:
- 我們提出了 TBC-HRL,一種分層強(qiáng)化學(xué)習(xí)框架,將定時子目標(biāo)調(diào)度與一種受生物啟發(fā)的神經(jīng)回路模型(NDBCNet)相結(jié)合,以應(yīng)對 HRL 中協(xié)調(diào)不穩(wěn)定、響應(yīng)延遲和可解釋性有限等核心挑戰(zhàn)。
- 我們在六個具有稀疏獎勵和長時域的模擬機(jī)器人任務(wù)中評估了 TBC-HRL,結(jié)果表明,相較于標(biāo)準(zhǔn) HRL 方法,其在樣本效率、子目標(biāo)穩(wěn)定性及策略泛化能力方面均表現(xiàn)出持續(xù)提升。
- 我們對 NDBCNet 進(jìn)行了詳細(xì)分析,并展示了其結(jié)構(gòu)稀疏性、時間動態(tài)特性以及自適應(yīng)響應(yīng)能力如何共同促成在復(fù)雜環(huán)境中實現(xiàn)魯棒且可解釋的低層控制。
- 相關(guān)工作
2.1 分層強(qiáng)化學(xué)習(xí)在現(xiàn)實任務(wù)中的局限性
分層強(qiáng)化學(xué)習(xí)(HRL)通過將策略分解為不同層級,在復(fù)雜控制任務(wù)中實現(xiàn)了較高的樣本效率與較強(qiáng)的策略泛化能力:高層策略生成子目標(biāo),低層策略負(fù)責(zé)執(zhí)行子目標(biāo),從而緩解了長時域任務(wù)中獎勵稀疏的問題。代表性方法包括 Option-Critic、FeUdal Networks、HIRO 與 HiTS[20–23]。然而,HRL 在現(xiàn)實場景中仍面臨若干關(guān)鍵挑戰(zhàn)。
首先,高層策略高度依賴于低層策略的反饋;而在訓(xùn)練初期,低層學(xué)習(xí)尚不穩(wěn)定,常導(dǎo)致高層策略無法收斂,進(jìn)而引發(fā)非平穩(wěn)更新。其次,子目標(biāo)調(diào)度缺乏節(jié)律性與時間協(xié)調(diào)性,頻繁切換子目標(biāo)會干擾低層學(xué)習(xí)效率。第三,現(xiàn)有大多數(shù) HRL 框架采用全連接神經(jīng)網(wǎng)絡(luò)作為策略逼近器,這類網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、響應(yīng)遲緩、可解釋性有限,難以滿足實時性、能效性與穩(wěn)定性要求較高的控制應(yīng)用需求。
因此,亟需構(gòu)建具備節(jié)律感知調(diào)度能力、輕量化網(wǎng)絡(luò)結(jié)構(gòu)以及仿生特性的層級架構(gòu),以提升層級間協(xié)調(diào)的穩(wěn)定性,并降低響應(yīng)延遲。
2.2 子目標(biāo)調(diào)度與時間抽象機(jī)制
在 HRL 中,高層策略對子目標(biāo)的生成與調(diào)度對整體性能與穩(wěn)定性至關(guān)重要。目前已提出多種方法以提升調(diào)度的合理性與適應(yīng)性。例如,HIRO 采用固定間隔調(diào)度,方法簡單但缺乏對環(huán)境的適應(yīng)性;FeUdal Networks 與 SNN-HRL[24]引入了狀態(tài)觸發(fā)機(jī)制,增強(qiáng)了感知響應(yīng)性,卻可能導(dǎo)致策略振蕩;HiTS 采用可學(xué)習(xí)的切換策略,能自主判定子目標(biāo)切換時機(jī),但由于缺乏顯式的時間約束,在低層策略中仍可能引發(fā)頻繁切換與碎片化學(xué)習(xí)。
此外,隨著訓(xùn)練過程中低層策略持續(xù)演化,高層策略實際運行于一個非平穩(wěn)的半馬爾可夫決策過程(SMDP)中:其狀態(tài)轉(zhuǎn)移動態(tài)變化,阻礙收斂并降低樣本效率。盡管已有研究提出事后重標(biāo)注(hindsight relabeling)與鄰接損失(adjacency loss)等技術(shù)以緩解該問題,但其效果仍受限于策略穩(wěn)定性及子目標(biāo)空間的復(fù)雜性。
值得注意的是,現(xiàn)有大多數(shù)方法忽視了子目標(biāo)執(zhí)行過程中的時間連續(xù)性與行為節(jié)律性。在現(xiàn)實任務(wù)中,缺乏這些特性往往導(dǎo)致調(diào)度信號呈現(xiàn)離散性與不穩(wěn)定性,削弱高層與低層之間的協(xié)同。相比之下,生物體常通過節(jié)律性、持續(xù)性的動作序列(如昆蟲覓食或動物運動控制)實現(xiàn)行為穩(wěn)定——這啟發(fā)我們在高層調(diào)度中引入顯式時間約束,以提升系統(tǒng)的穩(wěn)定性與執(zhí)行效率。
與以往主要關(guān)注“子目標(biāo)應(yīng)在何時切換”(即調(diào)度時刻)的工作不同,我們的框架強(qiáng)調(diào)對子目標(biāo)持續(xù)時間 τ 的顯式建模。通過為每個子目標(biāo)分配固定的執(zhí)行時長,高層控制器實現(xiàn)了具有節(jié)律性的時間抽象,減少了過度切換,并穩(wěn)定了層級間的協(xié)同。這一差異凸顯了我們的核心貢獻(xiàn):從基于時刻的子目標(biāo)觸發(fā)機(jī)制,轉(zhuǎn)向基于持續(xù)時間的調(diào)度機(jī)制,從而增強(qiáng)長時域下的信用分配能力,并整體提升策略的穩(wěn)定性。
2.3 仿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在智能控制中的應(yīng)用
近年來,受生物神經(jīng)系統(tǒng)的啟發(fā),研究人員提出了一系列具備強(qiáng)大時序建模與動態(tài)調(diào)控能力的仿生神經(jīng)網(wǎng)絡(luò)架構(gòu),包括脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)[25]、液態(tài)時間常數(shù)網(wǎng)絡(luò)(LTC)[26]以及神經(jīng)環(huán)路策略(NCPs)[18]。這些模型通過稀疏連接與神經(jīng)元狀態(tài)的動態(tài)演化,模擬了膜電位動力學(xué)過程,在時間序列建模、自適應(yīng)控制及可解釋性方面展現(xiàn)出顯著優(yōu)勢,并在機(jī)器人控制、運動預(yù)測及序列決策等任務(wù)中展現(xiàn)出廣闊的應(yīng)用前景[27–29]。
與傳統(tǒng)全連接神經(jīng)網(wǎng)絡(luò)相比,仿生結(jié)構(gòu)通常參數(shù)更少、計算效率更高、魯棒性更強(qiáng),因而特別適用于資源受限或?qū)崟r性要求高的控制場景。然而,目前大多數(shù)研究集中于將仿生神經(jīng)網(wǎng)絡(luò)應(yīng)用于單層策略框架中;其在分層控制架構(gòu)中的整合仍鮮有探索,為未來研究留下了廣闊空間。
- 背景
3.1 MDP 與 SMDP
強(qiáng)化學(xué)習(xí)(RL)問題通常被建模為馬爾可夫決策過程(MDP),其由狀態(tài)空間 、動作空間 、狀態(tài)轉(zhuǎn)移動態(tài) P(s′|s, a)、獎勵函數(shù) R(s, a) 以及折扣因子 γ ∈ [0, 1] 定義。智能體根據(jù)策略 π(a|s) 與環(huán)境交互,以最大化期望折扣回報:
![]()
雖然 MDP 適用于許多任務(wù),但由于其單步?jīng)Q策粒度,在長時域和稀疏獎勵問題中表現(xiàn)不佳。為解決此問題,HRL 擴(kuò)展至半馬爾可夫決策過程(SMDP),其中高層策略輸出由低層策略執(zhí)行的、持續(xù)多個時間步的時序抽象動作(子目標(biāo))。這種抽象有助于提升探索能力,但會引入非平穩(wěn)動力學(xué),因為高層策略依賴于不斷演化的低層策略,且穩(wěn)定性對 τ 的選擇高度敏感。
3.2 基于子目標(biāo)的 HRL
在基于子目標(biāo)的 HRL 中,高層控制器生成子目標(biāo) g ∈ ,而低層策略則執(zhí)行基本動作以實現(xiàn)這些子目標(biāo)。因此,子目標(biāo)的調(diào)度對整體性能至關(guān)重要。現(xiàn)有方法采用不同策略:HIRO[22]使用固定時間間隔,結(jié)構(gòu)簡單但適應(yīng)性差;FeUdal Networks 與 SNN-HRL[24]依賴狀態(tài)觸發(fā)更新,雖提升了響應(yīng)性,卻可能引發(fā)振蕩;HiTS[23]自適應(yīng)學(xué)習(xí)切換點,但因缺乏顯式時間約束,仍可能出現(xiàn)頻繁切換與行為碎片化。
總體而言,當(dāng)前方法缺乏節(jié)律感知調(diào)度與自適應(yīng)時間抽象機(jī)制,這限制了其在現(xiàn)實部署中的穩(wěn)定性與效率。這些問題促使我們開發(fā)一種結(jié)合顯式時間協(xié)調(diào)與魯棒分層控制的機(jī)制——正如本文所追求的方向。
- 方法
4.1 總體架構(gòu):TBC-HRL
我們提出 TBC-HRL,一種雙層級分層強(qiáng)化學(xué)習(xí)框架,它將高層 SAC 策略與由 NDBCNet 參數(shù)化的低層 SAC 策略相結(jié)合。所提框架的整體結(jié)構(gòu)如圖 1 所示,該圖提供了高層控制器、低層控制器與環(huán)境之間交互的系統(tǒng)級概覽。高層控制器 π? 在粗粒度時間尺度上運行,通過定時子目標(biāo)調(diào)度機(jī)制生成空間子目標(biāo) g 及其時間預(yù)算 τ?,確保層級間的時間協(xié)調(diào)。低層控制器 π? 在細(xì)粒度時間尺度上與環(huán)境交互,根據(jù)子目標(biāo)及其預(yù)算執(zhí)行相應(yīng)動作。兩個層級均維護(hù)獨立的經(jīng)驗回放緩沖區(qū)(?, ?)及用于 SAC 更新的 Q 函數(shù)評估器,從而實現(xiàn)解耦但協(xié)調(diào)的優(yōu)化。該設(shè)計增強(qiáng)了在長時域和稀疏獎勵任務(wù)中的穩(wěn)定性、樣本效率與泛化能力。
![]()
其中,g? 表示空間子目標(biāo)(例如,目標(biāo)位置或狀態(tài)向量),Δt? 指定了在低層時間步長中的執(zhí)行時域。高層獎勵 r?? 根據(jù)任務(wù)進(jìn)展計算,并更新頻率較低,通常每 Δt? 個低層步長更新一次。
我們將時間預(yù)算 Δt 視為一種時間抽象機(jī)制,它像低通濾波器一樣抑制高層切換:過小的 Δt 會引發(fā)頻繁的重新同步與跨層級非平穩(wěn)性,而過大的 Δt 則會導(dǎo)致對環(huán)境外部事件反應(yīng)遲緩。在實踐中,我們采用一個簡單且可復(fù)現(xiàn)的規(guī)則,使 Δt 隨典型子目標(biāo)可達(dá)性進(jìn)行縮放:
![]()
![]()
![]()
![]()
![]()
4.2 高層策略生成
![]()
![]()
![]()
![]()
![]()
![]()
![]()
高層模塊整合了基于SAC的優(yōu)化、顯式時間抽象和后見重標(biāo)記,實現(xiàn)了高效、有節(jié)奏且受生物啟發(fā)的子目標(biāo)調(diào)度。
4.3 神經(jīng)動態(tài)仿生控制網(wǎng)絡(luò)
為了提高低層策略的響應(yīng)性和控制精度,我們引入了NDBCNet,這是一種受秀麗隱桿線蟲緊湊高效神經(jīng)系統(tǒng)啟發(fā)的生物神經(jīng)架構(gòu)。與傳統(tǒng)依賴離散層和固定步長更新的全連接網(wǎng)絡(luò)不同,NDBCNet采用稀疏連接性、連續(xù)時間動態(tài)和興奮/抑制調(diào)節(jié),實現(xiàn)細(xì)粒度的時間建模和強(qiáng)化學(xué)習(xí)中的魯棒控制。
![]()
![]()
![]()
![]()
![]()
其中較小的值表示更快的響應(yīng)。這個屬性允許低層控制器快速適應(yīng)高層子目標(biāo)更新。
為了部署,我們推導(dǎo)出一個常微分方程(ODE)解的閉式近似,這顯著加速了推理過程,而無需重新訓(xùn)練:
![]()
相對于精確解有界的誤差。這種效率使得NDBCNet非常適合用于分層強(qiáng)化學(xué)習(xí)中的實時低層控制。
NDBCNet為低層控制提供了一種緊湊、可解釋且動態(tài)響應(yīng)的架構(gòu),結(jié)合了生物學(xué)動機(jī)的稀疏性與連續(xù)時間建模,以提高魯棒性、適應(yīng)性和計算效率。
![]()
![]()
![]()
4.4 低層策略生成和優(yōu)化
![]()
![]()
![]()
與傳統(tǒng)的多層感知器相比,NDBCNet提供了:(i)通過連續(xù)時間動態(tài)實現(xiàn)的優(yōu)越時間建模,(ii)通過稀疏和模塊化架構(gòu)增強(qiáng)的可解釋性,(iii)通過遞歸結(jié)構(gòu)和有界梯度傳播提高的穩(wěn)定性,以及(iv)在每個子目標(biāo)執(zhí)行窗口 τ 內(nèi)的高響應(yīng)性。這些特性提高了對噪聲的魯棒性,加速了收斂,并在動態(tài)、長時域任務(wù)中增強(qiáng)了低層控制精度。
4.5 策略優(yōu)化和訓(xùn)練過程
![]()
![]()
這提供了一種時間感知的表示,用于經(jīng)驗重放和后見重標(biāo)記。這使得低層控制器不僅能夠?qū)W習(xí)如何達(dá)到子目標(biāo),還能學(xué)習(xí)如何在固定的時間預(yù)算內(nèi)分配動作。
![]()
![]()
通過這種方案,低層控制器學(xué)習(xí)精確的、時間受限的行為,而高層策略專注于任務(wù)分解和子目標(biāo)調(diào)度。它們共同提高了長時域任務(wù)中的探索效率、魯棒性和時間協(xié)調(diào)。完整的訓(xùn)練過程總結(jié)在算法1中。
![]()
![]()
![]()
實驗
5.1 實驗環(huán)境
為了全面評估所提出的TBC-HRL算法,我們在六個具有代表性的模擬環(huán)境中進(jìn)行了實驗,這些環(huán)境在任務(wù)難度、動態(tài)性和控制要求方面各不相同(見圖3)。這些環(huán)境的訓(xùn)練步驟、狀態(tài)/動作維度和關(guān)鍵特征總結(jié)在表1中。所選環(huán)境涵蓋了廣泛的任務(wù),包括導(dǎo)航、操作、平衡控制和動態(tài)交互,為評估在長時域依賴和稀疏獎勵下的性能提供了堅實的基礎(chǔ)。
![]()
AntFourRooms:一個四足機(jī)器人通過一個四室迷宮從起點導(dǎo)航到指定的目標(biāo)房間。環(huán)境包含狹窄的通道和障礙物,強(qiáng)調(diào)長時域規(guī)劃和障礙物規(guī)避。
吊橋:一個時間控制場景,代理必須操作吊橋以允許船只安全通過。該任務(wù)強(qiáng)調(diào)動態(tài)環(huán)境中的時間協(xié)調(diào)和主動預(yù)期。
擺:一個經(jīng)典的控制問題,要求擺錘被擺動并穩(wěn)定在頂部。其非線性動態(tài)和連續(xù)動作空間需要精確的力量應(yīng)用和平衡維護(hù)。
平臺:一個側(cè)滾式任務(wù),代理必須在正確的時刻觸發(fā)移動平臺以到達(dá)目標(biāo)。延遲的動作效果和稀疏的獎勵使其成為時間推理和信用分配的基準(zhǔn)。
Tennis2D:一個機(jī)械臂必須擊球,使其落在目標(biāo)區(qū)域。成功需要在高隨機(jī)性和頻繁接觸下精確的時機(jī),控制延遲最小。
UR5Reacher:一個工業(yè)機(jī)器人臂控制任務(wù),涉及在避免碰撞的同時達(dá)到多個目標(biāo)。它評估在高自由度系統(tǒng)中的準(zhǔn)確性、路徑效率和能量效率。
在所有環(huán)境中,我們報告成功率、樣本效率(以達(dá)到性能閾值所需的訓(xùn)練步驟數(shù)來衡量)和策略穩(wěn)定性(方差)作為主要評估指標(biāo)。重要的是,這些環(huán)境的特征與TBC-HRL的核心貢獻(xiàn)一致:長時域和稀疏獎勵強(qiáng)調(diào)了定時子目標(biāo)調(diào)度的好處,而動態(tài)擾動和高維控制則突出了NDBCNet的響應(yīng)性和可解釋性優(yōu)勢。完整的NDBCNet配置和每個算法的超參數(shù)在附錄A表A1和表A2中提供。
為了評估觀察到的改進(jìn)是否具有統(tǒng)計學(xué)意義,我們使用已經(jīng)收集的運行結(jié)果(無需額外訓(xùn)練)計算雙側(cè)顯著性檢驗和置信區(qū)間。除非另有說明,否則我們匯總每個環(huán)境中獨立種子的分?jǐn)?shù),并在每個種子的評估情節(jié)中匯總。
![]()
5.2 實驗結(jié)果
我們在六個環(huán)境中比較了四種方法(圖4,表2):SAC、HAC、HITS和TBC-HRL。SAC是一個單層基線;HAC是一個不包括定時子目標(biāo)調(diào)度或NDBCNet的雙層變體;HITS是一個時間感知的分層強(qiáng)化學(xué)習(xí)基線,其中高層策略提出子目標(biāo),低層控制器執(zhí)行它們;TBC-HRL通過定時子目標(biāo)機(jī)制和NDBCNet增強(qiáng)了分層框架。所有方法共享相同的狀態(tài)/動作空間、獎勵函數(shù)和訓(xùn)練預(yù)算。在表2中,收斂增益表示TBC-HRL相對于最強(qiáng)基線(SAC/HAC/HITS中的最佳)達(dá)到目標(biāo)閾值所需的訓(xùn)練步驟的減少。陰影帶表示95%自舉置信區(qū)間,最終周期標(biāo)記報告與最強(qiáng)基線相比的顯著性。為了確保公平比較,我們匹配超參數(shù)調(diào)整和預(yù)算,報告10個隨機(jī)種子的結(jié)果,按最終周期均值 ± 標(biāo)準(zhǔn)差匯總,使用共同的成功閾值進(jìn)行收斂,并呈現(xiàn)95%自助置信區(qū)間。
![]()
時間關(guān)鍵環(huán)境(吊橋、平臺、網(wǎng)球2D)。在需要明確時間節(jié)奏和階段進(jìn)展的任務(wù)中,TBC-HRL始終收斂最快,并且達(dá)到最高的最終成功率。總體而言,TBC-HRL通常比最強(qiáng)基線提前約0.4-0.8百萬步達(dá)到目標(biāo),并且學(xué)習(xí)曲線更平滑。例如,在平臺上,TBC-HRL的成功率約為72%,而HITS大約為43%。在網(wǎng)球2D中,TBC-HRL達(dá)到約38%,而HITS約為24%,然而,所有方法都沒有在預(yù)算內(nèi)實現(xiàn)穩(wěn)定收斂,因此沒有報告收斂增益。
精確控制和動態(tài)響應(yīng)(四足螞蟻房間、UR5Reacher、擺)。在強(qiáng)調(diào)精細(xì)控制和快速響應(yīng)的任務(wù)中,TBC-HRL再次實現(xiàn)了最佳的最終成功率和更穩(wěn)定的收斂。在四足螞蟻房間中,TBC-HRL約為90%,而HITS大約為84%;在UR5Reacher中,97.6%對比96.6%,方差更低,曲線更平滑。在擺中,所有方法都迅速達(dá)到高性能,留下的進(jìn)一步改進(jìn)空間有限。
總結(jié)來說,在所有六個環(huán)境中,TBC-HRL都達(dá)到了最佳的最終成功率。它在時間關(guān)鍵任務(wù)中顯示出明顯的樣本效率優(yōu)勢,在精確控制任務(wù)中表現(xiàn)出更穩(wěn)定的高性能。定時子目標(biāo)(穩(wěn)定層間協(xié)調(diào)和長時域信用分配)和NDBCNet(增強(qiáng)低層精度和適應(yīng)性)的結(jié)合解釋了觀察到的特征:更快的學(xué)習(xí)、更低的方差和更高的漸近成功率。
圖5展示了UR5Reacher環(huán)境中第三關(guān)節(jié)運動的不同指揮神經(jīng)元的激活動態(tài)。可視化從低(藍(lán)色)到高(紅色)沿著空間軌跡過渡,反映了TBC-HRL在運動執(zhí)行期間如何處理時間序列信號。
![]()
在UR5Reacher中,指揮神經(jīng)元,表明對特定關(guān)節(jié)配置或方向的敏感性,而指揮神經(jīng)元。這種勞動分工表明NDBCNet促進(jìn)了神經(jīng)元之間的功能專業(yè)化,以捕捉不同的運動特征,從而提高控制精度和協(xié)調(diào)性。
為了提供與這些模式一致的定量支持,我們評估了保留軌跡上的四種互補(bǔ)措施。損傷實驗表明,移除最活躍的前5個神經(jīng)元會導(dǎo)致相對性能下降12.8 ± 2.3%。神經(jīng)元活動與任務(wù)特征(例如,速度、高度變化和能量消耗)之間的平均皮爾遜相關(guān)系數(shù)為0.47 ± 0.06。最后,神經(jīng)元激活與子目標(biāo)階段之間的互信息平均為0.36比特(第90百分位數(shù)為0.52比特)。這些結(jié)果與圖5中的空間-時間激活布局一致,表明在子目標(biāo)窗口內(nèi)具有特定階段的響應(yīng)和有助于解釋模型在復(fù)雜控制任務(wù)中的決策過程的結(jié)構(gòu)化內(nèi)部動態(tài)。
5.3 消融研究
對于消融實驗(TS-off和NDBCNet-off),我們通過寬度調(diào)整或零填充匹配參數(shù)總數(shù)在±0.5%以內(nèi),并精確匹配訓(xùn)練預(yù)算(總環(huán)境步驟、梯度更新、批量大小、重放比例和評估頻率)。優(yōu)化器計劃和熵溫度目標(biāo)在不同變體中保持固定。 我們比較了四種配置(圖6和表3):(1)完整的TBC-HRL,同時具有NDBCNet和定時子目標(biāo)(TS),(2)TBC-HRL(-NDBCNet),其中低層策略被MLP替換,但保留了TS,(3)TBC-HRL(-TS),保留了NDBCNet但去除了TS,以及(4)沒有任一組件的HAC。
![]()
總體而言,TBC-HRL始終實現(xiàn)了最佳成功率、更快的收斂速度和更低的方差。移除TS或NDBCNet會降低性能,而HAC是最弱且最不穩(wěn)定的,這證實了這兩個組件都是必要且互補(bǔ)的。
任務(wù)級分析顯示了不同的作用。在空間復(fù)雜或高自由度任務(wù)(如AntFourRooms和UR5Reacher)中,NDBCNet至關(guān)重要:TBC-HRL在AntFourRooms中實現(xiàn)了約90%的成功率,而沒有NDBCNet時為71%,HAC為75%。在對時間敏感的環(huán)境(如Drawbridge、Platforms和Tennis2D)中,TS更為重要;例如,在Drawbridge中,沒有TS時成功率從71%(全部)降至57%,而HAC為36%。擺錘相對簡單:所有方法的成功率都超過80%,TBC-HRL顯示出略微更快和更穩(wěn)定的收斂。
從機(jī)制上講,TS通過分配固定的執(zhí)行持續(xù)時間 τ 來穩(wěn)定層間協(xié)調(diào),從而在時間關(guān)鍵設(shè)置中改善時間信用分配。NDBCNet以其稀疏連接性和連續(xù)時間動態(tài),更有效地捕捉非線性和延遲,從而在高維控制中提高精度。這些模塊之間的協(xié)同作用解釋了在TBC-HRL中觀察到的改進(jìn)的收斂速度、穩(wěn)定性和漸近性能,而每次消融下的系統(tǒng)性下降則強(qiáng)調(diào)了它們互補(bǔ)的貢獻(xiàn)。定量地,移除TS在對時間敏感的環(huán)境(Drawbridge、Platforms、Tennis2D)中平均成功率降低了約14%,而移除NDBCNet在空間復(fù)雜任務(wù)(AntFourRooms、UR5Reacher)中性能降低了大約11%,進(jìn)一步證實了它們獨特但互補(bǔ)的作用。
本研究介紹了TBC-HRL,它將定時子目標(biāo)調(diào)度與NDBCNet結(jié)合用于低層控制。如圖4所示,并由圖6中的消融研究證實,完整的框架與HAC和單組件變體相比,實現(xiàn)了更高的漸近成功率、更快的收斂速度和更低的跨種子變異性。
特定環(huán)境的分析揭示了任務(wù)依賴的模式:空間復(fù)雜或高自由度設(shè)置(AntFourRooms、UR5Reacher)更多地受益于NDBCNet,而時間關(guān)鍵任務(wù)(Drawbridge、Tennis2D、Platforms)則更多地從TS中獲益。在簡單的擺錘任務(wù)中,所有方法的表現(xiàn)相當(dāng),但TBC-HRL仍然稍微更快和更穩(wěn)定地收斂。從機(jī)制上講,TS通過分配固定的執(zhí)行持續(xù)時間 τ 來加強(qiáng)固定的執(zhí)行持續(xù)時間,這減輕了層間抖動并改善了時間信用分配,而NDBCNet引入了稀疏的、連續(xù)時間動態(tài),更好地捕捉非線性和延遲。
重要的是,TS和NDBCNet的協(xié)同作用在不同環(huán)境中始終一致地提高了收斂速度、穩(wěn)定性和最終性能。定量地,移除TS會使時間敏感任務(wù)的平均成功率降低約14%,而移除NDBCNet會使空間復(fù)雜設(shè)置的性能降低約11%。神經(jīng)元級別的可視化進(jìn)一步突出了控制器內(nèi)的功能專業(yè)化,將這些收益與提高的可解釋性聯(lián)系起來。除了經(jīng)驗上的改進(jìn),這些發(fā)現(xiàn)表明,將生物學(xué)啟發(fā)的時間抽象和神經(jīng)動態(tài)納入考慮代表了一種新的穩(wěn)定和可解釋的分層強(qiáng)化學(xué)習(xí)的設(shè)計范式。
![]()
結(jié)論
總結(jié)來說,TBC-HRL通過將定時子目標(biāo)調(diào)度與NDBCNet結(jié)合,在六個基準(zhǔn)環(huán)境中實現(xiàn)了收斂速度、穩(wěn)定性和最終性能的一致改進(jìn)。結(jié)果表明,TS減少了時間敏感任務(wù)中的層間抖動,并加強(qiáng)了時間信用分配,而NDBCNet提供了稀疏的連續(xù)時間動態(tài),增強(qiáng)了空間復(fù)雜或高維設(shè)置中的精度和魯棒性。神經(jīng)元級別的可視化進(jìn)一步揭示了學(xué)習(xí)控制器內(nèi)的功能專業(yè)化,提供了改進(jìn)的可解釋性,并將觀察到的性能提升與生物學(xué)啟發(fā)的設(shè)計原則聯(lián)系起來。
盡管有這些貢獻(xiàn),本研究有幾個局限性,包括使用固定的 τ 和專注于模擬環(huán)境。未來的研究將探索自適應(yīng)或?qū)W習(xí)調(diào)度策略,擴(kuò)大與包括基于模型和分層方法在內(nèi)的更廣泛基線的比較,并研究在非平穩(wěn)和遷移設(shè)置下的魯棒性。此外,將進(jìn)行模擬到現(xiàn)實的驗證和因果可解釋性探測,以進(jìn)一步證實所提出框架的生物學(xué)啟發(fā)和實際應(yīng)用性。
![]()
原文鏈接:https://www.mdpi.com/2313-7673/10/11/715
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.