![]()
新智元報道
編輯:LRST
【新智元導讀】清華大學李升波教授團隊提出RACS算法,通過引入「探險者」策略主動探索違規邊界,破解安全強化學習的「安全性悖論」。該方法在不增加采樣成本的前提下,顯著提升違規樣本質量與系統安全認知,實現安全與性能的雙贏,刷新多項基準的SOTA成績。
隨著強化學習(RL)在虛擬世界的統治級表現,將其遷移至自動駕駛、機器人控制等真實物理系統已成為行業共識。然而,物理世界的高風險特性畫出了一道不可逾越的紅線——「零約束違反」。
為了守住這道紅線,學界提出了多種方案:OpenAI結合拉格朗日乘子法動態權衡安全與性能,UC Berkeley提出的CPO算法利用信賴域將策略限制在可行空間內。
然而,現有方法始終面臨一個核心痛點:策略難以做到嚴格的「零違反」。大多數算法只能將違規控制在極低水平,一旦試圖追求絕對的零違規,就會遭遇巨大阻力。
清華大學李升波教授課題組于安全強化學習領域獲得突破性進展,首次在理論層面揭示并證明了安全強化學習(Safe RL)中的一個反直覺現象——「安全性悖論」(Safety Paradox):策略越追求安全,反而可能越不安全。
![]()
論文鏈接:https://openreview.net/forum?id=BHSSV1nHvU
代碼倉庫:https://github.com/yangyujie-jack/Feasible-Dual-Policy-Iteration
在安全強化學習中,智能體通常依賴交互數據學習一個可行性函數(Feasibility Function),以此判斷當前狀態是否長期安全,從而規避危險區域。
然而,研究通過嚴格的理論證明揭示了一個嚴峻事實:
隨著策略變得越來越安全,其產生的違規樣本會變得極度稀疏。這直接導致可行性函數的估計誤差急劇增大,進而使指導策略優化的約束函數出現偏差,最終導致策略安全性崩塌。
這就像一個從未見過懸崖的人,在行走時即便再小心翼翼,也會因為缺乏對「懸崖邊緣」的確切認知,而無法精準判斷危險界限究竟在哪里。越是刻意追求安全,對危險邊界的認知就越模糊,最終反而導致安全防線失效。 這就是所謂的「安全性悖論」——策略陷入了一個自我挫敗的死循環。
![]()
針對這一困境,團隊提出了Region-wise Actor-Critic-Scenery(RACS)算法,通過引入專門收集違規樣本的「探險者」策略,成功打破悖論,在權威基準Safety-Gymnasium上刷新了SOTA成績,該工作發表于人工智能頂會ICLR 2026。
破局之道RACS算法
既然「不敢越雷池一步」會導致認知盲區,那么破解之道便是主動探險、直面危險。
研究團隊提出了Region-wise Actor-Critic-Scenery(RACS)算法,創造性地引入了雙策略架構:
(1)原始策略(Primal Policy):扮演「守規矩的執行者」。它負責在滿足安全約束的前提下,盡可能最大化任務獎勵。
(2)對偶策略(Dual Policy):扮演「無畏的探險者」。它的目標與前者相反,旨在策略性地最大化約束違反,主動觸探原始策略不敢涉足的危險邊界。
通過這種「左右互搏」的機制,RACS在不增加總采樣成本的前提下,顯著提升了關鍵違規樣本的比例,從而讓系統對「安全邊界」有了清晰、精準的認知。
為了解決雙策略數據混合帶來的分布偏移(Distributional Shift)問題,RACS采用了重要性采樣(Importance Sampling)技術進行數學修正,并約束對偶策略與原始策略間的KL散度,確保訓練過程的平穩收斂。
![]()
實驗結果:刷新SOTA
研究團隊在安全強化學習權威基準Safety-Gymnasium上進行了廣泛驗證。結果表明,RACS在14項任務中的綜合性能達到了State-of-the-art(SOTA)水平:
![]()
![]()
(1)安全性顯著提升:RACS實現了最低的平均約束違反次數(Cost),顯著優于現有的拉格朗日乘子法或信賴域方法。特別是在HalfCheetahVelocity、Walker2dVelocity等任務中,實現了嚴格的零約束違反。
(2)控制性能無退化:在保證安全性的同時,RACS的平均累積回報(Return)依然位居榜首,實現了安全與性能的雙贏。在高維的HumanoidVelocity、復雜的PointPush(推箱子導航避障)等多項高難度任務中,安全指標與任務性能均名列前茅。
為探究性能提升的根本原因,研究團隊統計了增加對偶策略后的關鍵指標變化:
![]()
![]()
![]()
(1)違規樣本顯著增加:在所有 14 項任務中,對偶策略成功采集了大量高價值的違規樣本,大部分任務中的樣本量提升了一個數量級。
(2)估計誤差大幅降低:統計顯示,可行性函數的擬合誤差顯著減小,尤其是「低估風險」(誤差小于零)的頻率大幅降低。這意味著系統不再將危險狀態誤判為安全,從而從根本上提升了策略的安全性。
總結與展望
該研究從理論上揭示了強化學習中的「安全性悖論」,闡明了違規樣本稀疏性與可行性函數估計誤差之間的內在因果。
RACS算法通過對偶策略的「對抗式」探索打破了「安全性悖論」,證明了一個深刻的道理:為了真正的安全,必須充分地了解危險。
該研究為自動駕駛、機器人等高風險場景下的強化學習落地提供了堅實的理論基礎與有效的解決方案。
參考資料:
https://openreview.net/forum?id=BHSSV1nHvU
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.