網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

清華打破強(qiáng)化學(xué)習(xí)安全性悖論，14項(xiàng)測(cè)試基準(zhǔn)任務(wù)全SOTA

2026-02-16 22:13:08　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：LRST

【新智元導(dǎo)讀】清華大學(xué)李升波教授團(tuán)隊(duì)提出RACS算法，通過(guò)引入「探險(xiǎn)者」策略主動(dòng)探索違規(guī)邊界，破解安全強(qiáng)化學(xué)習(xí)的「安全性悖論」。該方法在不增加采樣成本的前提下，顯著提升違規(guī)樣本質(zhì)量與系統(tǒng)安全認(rèn)知，實(shí)現(xiàn)安全與性能的雙贏，刷新多項(xiàng)基準(zhǔn)的SOTA成績(jī)。

隨著強(qiáng)化學(xué)習(xí)（RL）在虛擬世界的統(tǒng)治級(jí)表現(xiàn)，將其遷移至自動(dòng)駕駛、機(jī)器人控制等真實(shí)物理系統(tǒng)已成為行業(yè)共識(shí)。然而，物理世界的高風(fēng)險(xiǎn)特性畫出了一道不可逾越的紅線——「零約束違反」。

為了守住這道紅線，學(xué)界提出了多種方案：OpenAI結(jié)合拉格朗日乘子法動(dòng)態(tài)權(quán)衡安全與性能，UC Berkeley提出的CPO算法利用信賴域?qū)⒉呗韵拗圃诳尚锌臻g內(nèi)。

然而，現(xiàn)有方法始終面臨一個(gè)核心痛點(diǎn)：策略難以做到嚴(yán)格的「零違反」。大多數(shù)算法只能將違規(guī)控制在極低水平，一旦試圖追求絕對(duì)的零違規(guī)，就會(huì)遭遇巨大阻力。

清華大學(xué)李升波教授課題組于安全強(qiáng)化學(xué)習(xí)領(lǐng)域獲得突破性進(jìn)展，首次在理論層面揭示并證明了安全強(qiáng)化學(xué)習(xí)（Safe RL）中的一個(gè)反直覺現(xiàn)象——「安全性悖論」（Safety Paradox）：策略越追求安全，反而可能越不安全。

論文鏈接：https://openreview.net/forum?id=BHSSV1nHvU

代碼倉(cāng)庫(kù)：https://github.com/yangyujie-jack/Feasible-Dual-Policy-Iteration

在安全強(qiáng)化學(xué)習(xí)中，智能體通常依賴交互數(shù)據(jù)學(xué)習(xí)一個(gè)可行性函數(shù)（Feasibility Function），以此判斷當(dāng)前狀態(tài)是否長(zhǎng)期安全，從而規(guī)避危險(xiǎn)區(qū)域。

然而，研究通過(guò)嚴(yán)格的理論證明揭示了一個(gè)嚴(yán)峻事實(shí)：

隨著策略變得越來(lái)越安全，其產(chǎn)生的違規(guī)樣本會(huì)變得極度稀疏。這直接導(dǎo)致可行性函數(shù)的估計(jì)誤差急劇增大，進(jìn)而使指導(dǎo)策略優(yōu)化的約束函數(shù)出現(xiàn)偏差，最終導(dǎo)致策略安全性崩塌。

這就像一個(gè)從未見過(guò)懸崖的人，在行走時(shí)即便再小心翼翼，也會(huì)因?yàn)槿狈?duì)「懸崖邊緣」的確切認(rèn)知，而無(wú)法精準(zhǔn)判斷危險(xiǎn)界限究竟在哪里。越是刻意追求安全，對(duì)危險(xiǎn)邊界的認(rèn)知就越模糊，最終反而導(dǎo)致安全防線失效。這就是所謂的「安全性悖論」——策略陷入了一個(gè)自我挫敗的死循環(huán)。

針對(duì)這一困境，團(tuán)隊(duì)提出了Region-wise Actor-Critic-Scenery（RACS）算法，通過(guò)引入專門收集違規(guī)樣本的「探險(xiǎn)者」策略，成功打破悖論，在權(quán)威基準(zhǔn)Safety-Gymnasium上刷新了SOTA成績(jī)，該工作發(fā)表于人工智能頂會(huì)ICLR 2026。

破局之道RACS算法

既然「不敢越雷池一步」會(huì)導(dǎo)致認(rèn)知盲區(qū)，那么破解之道便是主動(dòng)探險(xiǎn)、直面危險(xiǎn)。

研究團(tuán)隊(duì)提出了Region-wise Actor-Critic-Scenery（RACS）算法，創(chuàng)造性地引入了雙策略架構(gòu)：

（1）原始策略（Primal Policy）：扮演「守規(guī)矩的執(zhí)行者」。它負(fù)責(zé)在滿足安全約束的前提下，盡可能最大化任務(wù)獎(jiǎng)勵(lì)。

（2）對(duì)偶策略（Dual Policy）：扮演「無(wú)畏的探險(xiǎn)者」。它的目標(biāo)與前者相反，旨在策略性地最大化約束違反，主動(dòng)觸探原始策略不敢涉足的危險(xiǎn)邊界。

通過(guò)這種「左右互搏」的機(jī)制，RACS在不增加總采樣成本的前提下，顯著提升了關(guān)鍵違規(guī)樣本的比例，從而讓系統(tǒng)對(duì)「安全邊界」有了清晰、精準(zhǔn)的認(rèn)知。

為了解決雙策略數(shù)據(jù)混合帶來(lái)的分布偏移（Distributional Shift）問(wèn)題，RACS采用了重要性采樣（Importance Sampling）技術(shù)進(jìn)行數(shù)學(xué)修正，并約束對(duì)偶策略與原始策略間的KL散度，確保訓(xùn)練過(guò)程的平穩(wěn)收斂。

實(shí)驗(yàn)結(jié)果：刷新SOTA

研究團(tuán)隊(duì)在安全強(qiáng)化學(xué)習(xí)權(quán)威基準(zhǔn)Safety-Gymnasium上進(jìn)行了廣泛驗(yàn)證。結(jié)果表明，RACS在14項(xiàng)任務(wù)中的綜合性能達(dá)到了State-of-the-art（SOTA）水平：

（1）安全性顯著提升：RACS實(shí)現(xiàn)了最低的平均約束違反次數(shù)（Cost），顯著優(yōu)于現(xiàn)有的拉格朗日乘子法或信賴域方法。特別是在HalfCheetahVelocity、Walker2dVelocity等任務(wù)中，實(shí)現(xiàn)了嚴(yán)格的零約束違反。

（2）控制性能無(wú)退化：在保證安全性的同時(shí)，RACS的平均累積回報(bào)（Return）依然位居榜首，實(shí)現(xiàn)了安全與性能的雙贏。在高維的HumanoidVelocity、復(fù)雜的PointPush（推箱子導(dǎo)航避障）等多項(xiàng)高難度任務(wù)中，安全指標(biāo)與任務(wù)性能均名列前茅。

為探究性能提升的根本原因，研究團(tuán)隊(duì)統(tǒng)計(jì)了增加對(duì)偶策略后的關(guān)鍵指標(biāo)變化：

（1）違規(guī)樣本顯著增加：在所有 14 項(xiàng)任務(wù)中，對(duì)偶策略成功采集了大量高價(jià)值的違規(guī)樣本，大部分任務(wù)中的樣本量提升了一個(gè)數(shù)量級(jí)。

（2）估計(jì)誤差大幅降低：統(tǒng)計(jì)顯示，可行性函數(shù)的擬合誤差顯著減小，尤其是「低估風(fēng)險(xiǎn)」（誤差小于零）的頻率大幅降低。這意味著系統(tǒng)不再將危險(xiǎn)狀態(tài)誤判為安全，從而從根本上提升了策略的安全性。

總結(jié)與展望

該研究從理論上揭示了強(qiáng)化學(xué)習(xí)中的「安全性悖論」，闡明了違規(guī)樣本稀疏性與可行性函數(shù)估計(jì)誤差之間的內(nèi)在因果。

RACS算法通過(guò)對(duì)偶策略的「對(duì)抗式」探索打破了「安全性悖論」，證明了一個(gè)深刻的道理：為了真正的安全，必須充分地了解危險(xiǎn)。

該研究為自動(dòng)駕駛、機(jī)器人等高風(fēng)險(xiǎn)場(chǎng)景下的強(qiáng)化學(xué)習(xí)落地提供了堅(jiān)實(shí)的理論基礎(chǔ)與有效的解決方案。

參考資料：

https://openreview.net/forum?id=BHSSV1nHvU

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.