當前強化學習RL發展的主要驅動力有3點:提高樣本效率、提升策略性能與泛化能力、解決更復雜的決策問題。而目前有關RL的創新也基本都是圍繞這些展開。
具體思路可分為4大類:核心方法與架構的創新、解決特定問題范式的創新、融合領域知識與模型的新范式、邁向通用智能的探索。基本覆蓋了強化學習創新的核心方向,強烈推薦每一位想發論文的同學關注!
同時,為幫助大家快速上手,我根據這4個方向整理了161篇強化學習前沿論文,包含當下很香的“RL + X”類創新,開源代碼已附,相信各位看完后會有所收獲。
![]()
掃碼添加小享,回復“強化161”
免費獲取全部論文+開源代碼
核心方法與架構的創新
專注于強化學習的 “算法骨架” 優化,比如網絡結構、基礎機制改進,不綁定特定問題或領域。
KalMamba: Towards Efficient Probabilistic State Space Models for RL under Uncertainty
方法:論文提出 KalMamba 方法,在強化學習中結合卡爾曼濾波與平滑,將線性高斯狀態空間模型嵌入 latent 空間,用 Mamba 學習動力學參數,通過并行關聯掃描實現高效推理,濾波信念用于策略學習,平滑信念用于模型訓練,在保證性能的同時提升計算效率,尤其適配長序列。
![]()
創新點:
融合概率與確定性狀態空間模型優勢,提出KalMamba架構,在潛在空間嵌入線性高斯SSM,用Mamba學習動力學參數。
基于并行關聯掃描實現時間并行卡爾曼濾波與平滑,濾波信念供策略學習,平滑信念保障模型訓練緊變分下界。
相比RSSM、VRKN等基線,在保證性能的同時,顯著提升計算效率,尤其適配長交互序列。
針對某一類明確問題(比如多目標、組合優化),提出新的強化學習應用模式。
Constrained Multi-objective Optimization with Deep Reinforcement Learning Assisted Operator Selection
方法:論文把深度強化學習和約束多目標進化算法結合,提出算子選擇框架。以種群的收斂、多樣、可行性為狀態,候選算子為動作,種群狀態提升為獎勵,訓練Q網絡選最優算子,嵌入CMOEAs后能優化算子選擇,提升算法性能且通用性更好。
![]()
創新點:
用深度強化學習設計算子選擇模型,以種群狀態為依據、候選算子為動作、種群提升為獎勵,解決約束多目標優化的自適應算子選擇問題。
構建通用框架,可嵌入任意約束多目標進化算法,兼容多種候選算子,無需針對性重新設計。
該框架讓算法在42個基準問題上性能提升,比9種先進算法通用性強,且對參數不敏感、魯棒性好。
掃碼添加小享,回復“強化161”
免費獲取全部論文+開源代碼
融合領域知識與模型的新范式
將外部領域的專業知識(如物理定律)或專用模型融入強化學習,增強領域適配性。
Reinforcement Learning with Physics-Informed Symbolic Program Priors for Zero-Shot Wireless Indoor Navigation
方法:論文提出物理信息程序引導強化學習(PiPRL)框架,將物理信息與強化學習結合。通過神經感知模塊提取傳感器物理特征,用符號程序將電磁波特性等物理先驗轉化為導航策略或約束,再用強化學習優化低層控制,以此提升無線室內導航的樣本效率和零樣本泛化能力。
![]()
創新點:
提出PiPRL框架,用符號程序將物理先驗轉化為策略或約束,讓物理信息直接參與強化學習。
設計三層架構,通過神經感知提取物理特征,符號程序輸出高層策略,強化學習優化低層控制。
提升無線室內導航的樣本效率(減少26%訓練時間),并實現零樣本泛化,適配未見過的場景。
以“突破任務邊界、提升泛化能力”為目標,追求更通用的決策或學習能力。
Semantic HELM: A Human-Readable Memory for Reinforcement Learning
方法:論文提出 SHELM 方法,將強化學習與大模型結合:用 CLIP 大模型把智能體視覺觀測轉成語義 tokens,再用語言模型存儲這些 tokens 作為可讀記憶,最后結合 PPO 強化學習讓智能體依當前觀測和歷史記憶決策,提升部分可觀測環境下的任務收斂速度與記憶可解釋性。
![]()
創新點:
用CLIP大模型把強化學習智能體的視覺觀測轉成可讀語義tokens,解決傳統記憶不可解釋問題。
用預訓練語言模型(如TransformerXL)存語義tokens作記憶,不用額外訓練且記憶可查看。
結合PPO強化學習,智能體靠當前觀測和歷史記憶決策,任務表現好,尤其Psychlab任務收斂快很多。
掃碼添加小享,回復“強化161”
免費獲取全部論文+開源代碼
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.