![]()
新智元報(bào)道
編輯:LRST
【新智元導(dǎo)讀】清華大學(xué)李升波教授團(tuán)隊(duì)提出RACS算法,通過(guò)引入「探險(xiǎn)者」策略主動(dòng)探索違規(guī)邊界,破解安全強(qiáng)化學(xué)習(xí)的「安全性悖論」。該方法在不增加采樣成本的前提下,顯著提升違規(guī)樣本質(zhì)量與系統(tǒng)安全認(rèn)知,實(shí)現(xiàn)安全與性能的雙贏,刷新多項(xiàng)基準(zhǔn)的SOTA成績(jī)。
隨著強(qiáng)化學(xué)習(xí)(RL)在虛擬世界的統(tǒng)治級(jí)表現(xiàn),將其遷移至自動(dòng)駕駛、機(jī)器人控制等真實(shí)物理系統(tǒng)已成為行業(yè)共識(shí)。然而,物理世界的高風(fēng)險(xiǎn)特性畫出了一道不可逾越的紅線——「零約束違反」。
為了守住這道紅線,學(xué)界提出了多種方案:OpenAI結(jié)合拉格朗日乘子法動(dòng)態(tài)權(quán)衡安全與性能,UC Berkeley提出的CPO算法利用信賴域?qū)⒉呗韵拗圃诳尚锌臻g內(nèi)。
然而,現(xiàn)有方法始終面臨一個(gè)核心痛點(diǎn):策略難以做到嚴(yán)格的「零違反」。大多數(shù)算法只能將違規(guī)控制在極低水平,一旦試圖追求絕對(duì)的零違規(guī),就會(huì)遭遇巨大阻力。
清華大學(xué)李升波教授課題組于安全強(qiáng)化學(xué)習(xí)領(lǐng)域獲得突破性進(jìn)展,首次在理論層面揭示并證明了安全強(qiáng)化學(xué)習(xí)(Safe RL)中的一個(gè)反直覺現(xiàn)象——「安全性悖論」(Safety Paradox):策略越追求安全,反而可能越不安全。
![]()
論文鏈接:https://openreview.net/forum?id=BHSSV1nHvU
代碼倉(cāng)庫(kù):https://github.com/yangyujie-jack/Feasible-Dual-Policy-Iteration
在安全強(qiáng)化學(xué)習(xí)中,智能體通常依賴交互數(shù)據(jù)學(xué)習(xí)一個(gè)可行性函數(shù)(Feasibility Function),以此判斷當(dāng)前狀態(tài)是否長(zhǎng)期安全,從而規(guī)避危險(xiǎn)區(qū)域。
然而,研究通過(guò)嚴(yán)格的理論證明揭示了一個(gè)嚴(yán)峻事實(shí):
隨著策略變得越來(lái)越安全,其產(chǎn)生的違規(guī)樣本會(huì)變得極度稀疏。這直接導(dǎo)致可行性函數(shù)的估計(jì)誤差急劇增大,進(jìn)而使指導(dǎo)策略優(yōu)化的約束函數(shù)出現(xiàn)偏差,最終導(dǎo)致策略安全性崩塌。
這就像一個(gè)從未見過(guò)懸崖的人,在行走時(shí)即便再小心翼翼,也會(huì)因?yàn)槿狈?duì)「懸崖邊緣」的確切認(rèn)知,而無(wú)法精準(zhǔn)判斷危險(xiǎn)界限究竟在哪里。越是刻意追求安全,對(duì)危險(xiǎn)邊界的認(rèn)知就越模糊,最終反而導(dǎo)致安全防線失效。 這就是所謂的「安全性悖論」——策略陷入了一個(gè)自我挫敗的死循環(huán)。
![]()
針對(duì)這一困境,團(tuán)隊(duì)提出了Region-wise Actor-Critic-Scenery(RACS)算法,通過(guò)引入專門收集違規(guī)樣本的「探險(xiǎn)者」策略,成功打破悖論,在權(quán)威基準(zhǔn)Safety-Gymnasium上刷新了SOTA成績(jī),該工作發(fā)表于人工智能頂會(huì)ICLR 2026。
破局之道RACS算法
既然「不敢越雷池一步」會(huì)導(dǎo)致認(rèn)知盲區(qū),那么破解之道便是主動(dòng)探險(xiǎn)、直面危險(xiǎn)。
研究團(tuán)隊(duì)提出了Region-wise Actor-Critic-Scenery(RACS)算法,創(chuàng)造性地引入了雙策略架構(gòu):
(1)原始策略(Primal Policy):扮演「守規(guī)矩的執(zhí)行者」。它負(fù)責(zé)在滿足安全約束的前提下,盡可能最大化任務(wù)獎(jiǎng)勵(lì)。
(2)對(duì)偶策略(Dual Policy):扮演「無(wú)畏的探險(xiǎn)者」。它的目標(biāo)與前者相反,旨在策略性地最大化約束違反,主動(dòng)觸探原始策略不敢涉足的危險(xiǎn)邊界。
通過(guò)這種「左右互搏」的機(jī)制,RACS在不增加總采樣成本的前提下,顯著提升了關(guān)鍵違規(guī)樣本的比例,從而讓系統(tǒng)對(duì)「安全邊界」有了清晰、精準(zhǔn)的認(rèn)知。
為了解決雙策略數(shù)據(jù)混合帶來(lái)的分布偏移(Distributional Shift)問(wèn)題,RACS采用了重要性采樣(Importance Sampling)技術(shù)進(jìn)行數(shù)學(xué)修正,并約束對(duì)偶策略與原始策略間的KL散度,確保訓(xùn)練過(guò)程的平穩(wěn)收斂。
![]()
實(shí)驗(yàn)結(jié)果:刷新SOTA
研究團(tuán)隊(duì)在安全強(qiáng)化學(xué)習(xí)權(quán)威基準(zhǔn)Safety-Gymnasium上進(jìn)行了廣泛驗(yàn)證。結(jié)果表明,RACS在14項(xiàng)任務(wù)中的綜合性能達(dá)到了State-of-the-art(SOTA)水平:
![]()
![]()
(1)安全性顯著提升:RACS實(shí)現(xiàn)了最低的平均約束違反次數(shù)(Cost),顯著優(yōu)于現(xiàn)有的拉格朗日乘子法或信賴域方法。特別是在HalfCheetahVelocity、Walker2dVelocity等任務(wù)中,實(shí)現(xiàn)了嚴(yán)格的零約束違反。
(2)控制性能無(wú)退化:在保證安全性的同時(shí),RACS的平均累積回報(bào)(Return)依然位居榜首,實(shí)現(xiàn)了安全與性能的雙贏。在高維的HumanoidVelocity、復(fù)雜的PointPush(推箱子導(dǎo)航避障)等多項(xiàng)高難度任務(wù)中,安全指標(biāo)與任務(wù)性能均名列前茅。
為探究性能提升的根本原因,研究團(tuán)隊(duì)統(tǒng)計(jì)了增加對(duì)偶策略后的關(guān)鍵指標(biāo)變化:
![]()
![]()
![]()
(1)違規(guī)樣本顯著增加:在所有 14 項(xiàng)任務(wù)中,對(duì)偶策略成功采集了大量高價(jià)值的違規(guī)樣本,大部分任務(wù)中的樣本量提升了一個(gè)數(shù)量級(jí)。
(2)估計(jì)誤差大幅降低:統(tǒng)計(jì)顯示,可行性函數(shù)的擬合誤差顯著減小,尤其是「低估風(fēng)險(xiǎn)」(誤差小于零)的頻率大幅降低。這意味著系統(tǒng)不再將危險(xiǎn)狀態(tài)誤判為安全,從而從根本上提升了策略的安全性。
總結(jié)與展望
該研究從理論上揭示了強(qiáng)化學(xué)習(xí)中的「安全性悖論」,闡明了違規(guī)樣本稀疏性與可行性函數(shù)估計(jì)誤差之間的內(nèi)在因果。
RACS算法通過(guò)對(duì)偶策略的「對(duì)抗式」探索打破了「安全性悖論」,證明了一個(gè)深刻的道理:為了真正的安全,必須充分地了解危險(xiǎn)。
該研究為自動(dòng)駕駛、機(jī)器人等高風(fēng)險(xiǎn)場(chǎng)景下的強(qiáng)化學(xué)習(xí)落地提供了堅(jiān)實(shí)的理論基礎(chǔ)與有效的解決方案。
參考資料:
https://openreview.net/forum?id=BHSSV1nHvU
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.