<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      清華打破強(qiáng)化學(xué)習(xí)安全性悖論,14項(xiàng)測(cè)試基準(zhǔn)任務(wù)全SOTA

      0
      分享至


      新智元報(bào)道

      編輯:LRST

      【新智元導(dǎo)讀】清華大學(xué)李升波教授團(tuán)隊(duì)提出RACS算法,通過(guò)引入「探險(xiǎn)者」策略主動(dòng)探索違規(guī)邊界,破解安全強(qiáng)化學(xué)習(xí)的「安全性悖論」。該方法在不增加采樣成本的前提下,顯著提升違規(guī)樣本質(zhì)量與系統(tǒng)安全認(rèn)知,實(shí)現(xiàn)安全與性能的雙贏,刷新多項(xiàng)基準(zhǔn)的SOTA成績(jī)。

      隨著強(qiáng)化學(xué)習(xí)(RL)在虛擬世界的統(tǒng)治級(jí)表現(xiàn),將其遷移至自動(dòng)駕駛、機(jī)器人控制等真實(shí)物理系統(tǒng)已成為行業(yè)共識(shí)。然而,物理世界的高風(fēng)險(xiǎn)特性畫出了一道不可逾越的紅線——「零約束違反」。

      為了守住這道紅線,學(xué)界提出了多種方案:OpenAI結(jié)合拉格朗日乘子法動(dòng)態(tài)權(quán)衡安全與性能,UC Berkeley提出的CPO算法利用信賴域?qū)⒉呗韵拗圃诳尚锌臻g內(nèi)。

      然而,現(xiàn)有方法始終面臨一個(gè)核心痛點(diǎn):策略難以做到嚴(yán)格的「零違反」。大多數(shù)算法只能將違規(guī)控制在極低水平,一旦試圖追求絕對(duì)的零違規(guī),就會(huì)遭遇巨大阻力。

      清華大學(xué)李升波教授課題組于安全強(qiáng)化學(xué)習(xí)領(lǐng)域獲得突破性進(jìn)展,首次在理論層面揭示并證明了安全強(qiáng)化學(xué)習(xí)(Safe RL)中的一個(gè)反直覺現(xiàn)象——「安全性悖論」(Safety Paradox):策略越追求安全,反而可能越不安全。


      論文鏈接:https://openreview.net/forum?id=BHSSV1nHvU

      代碼倉(cāng)庫(kù):https://github.com/yangyujie-jack/Feasible-Dual-Policy-Iteration

      在安全強(qiáng)化學(xué)習(xí)中,智能體通常依賴交互數(shù)據(jù)學(xué)習(xí)一個(gè)可行性函數(shù)(Feasibility Function),以此判斷當(dāng)前狀態(tài)是否長(zhǎng)期安全,從而規(guī)避危險(xiǎn)區(qū)域。

      然而,研究通過(guò)嚴(yán)格的理論證明揭示了一個(gè)嚴(yán)峻事實(shí):

      隨著策略變得越來(lái)越安全,其產(chǎn)生的違規(guī)樣本會(huì)變得極度稀疏。這直接導(dǎo)致可行性函數(shù)的估計(jì)誤差急劇增大,進(jìn)而使指導(dǎo)策略優(yōu)化的約束函數(shù)出現(xiàn)偏差,最終導(dǎo)致策略安全性崩塌。

      這就像一個(gè)從未見過(guò)懸崖的人,在行走時(shí)即便再小心翼翼,也會(huì)因?yàn)槿狈?duì)「懸崖邊緣」的確切認(rèn)知,而無(wú)法精準(zhǔn)判斷危險(xiǎn)界限究竟在哪里。越是刻意追求安全,對(duì)危險(xiǎn)邊界的認(rèn)知就越模糊,最終反而導(dǎo)致安全防線失效。 這就是所謂的「安全性悖論」——策略陷入了一個(gè)自我挫敗的死循環(huán)。


      針對(duì)這一困境,團(tuán)隊(duì)提出了Region-wise Actor-Critic-Scenery(RACS)算法,通過(guò)引入專門收集違規(guī)樣本的「探險(xiǎn)者」策略,成功打破悖論,在權(quán)威基準(zhǔn)Safety-Gymnasium上刷新了SOTA成績(jī),該工作發(fā)表于人工智能頂會(huì)ICLR 2026。

      破局之道RACS算法

      既然「不敢越雷池一步」會(huì)導(dǎo)致認(rèn)知盲區(qū),那么破解之道便是主動(dòng)探險(xiǎn)、直面危險(xiǎn)。

      研究團(tuán)隊(duì)提出了Region-wise Actor-Critic-Scenery(RACS)算法,創(chuàng)造性地引入了雙策略架構(gòu):

      (1)原始策略(Primal Policy):扮演「守規(guī)矩的執(zhí)行者」。它負(fù)責(zé)在滿足安全約束的前提下,盡可能最大化任務(wù)獎(jiǎng)勵(lì)。

      (2)對(duì)偶策略(Dual Policy):扮演「無(wú)畏的探險(xiǎn)者」。它的目標(biāo)與前者相反,旨在策略性地最大化約束違反,主動(dòng)觸探原始策略不敢涉足的危險(xiǎn)邊界。

      通過(guò)這種「左右互搏」的機(jī)制,RACS在不增加總采樣成本的前提下,顯著提升了關(guān)鍵違規(guī)樣本的比例,從而讓系統(tǒng)對(duì)「安全邊界」有了清晰、精準(zhǔn)的認(rèn)知。

      為了解決雙策略數(shù)據(jù)混合帶來(lái)的分布偏移(Distributional Shift)問(wèn)題,RACS采用了重要性采樣(Importance Sampling)技術(shù)進(jìn)行數(shù)學(xué)修正,并約束對(duì)偶策略與原始策略間的KL散度,確保訓(xùn)練過(guò)程的平穩(wěn)收斂。


      實(shí)驗(yàn)結(jié)果:刷新SOTA

      研究團(tuán)隊(duì)在安全強(qiáng)化學(xué)習(xí)權(quán)威基準(zhǔn)Safety-Gymnasium上進(jìn)行了廣泛驗(yàn)證。結(jié)果表明,RACS在14項(xiàng)任務(wù)中的綜合性能達(dá)到了State-of-the-art(SOTA)水平:



      (1)安全性顯著提升RACS實(shí)現(xiàn)了最低的平均約束違反次數(shù)(Cost),顯著優(yōu)于現(xiàn)有的拉格朗日乘子法或信賴域方法。特別是在HalfCheetahVelocity、Walker2dVelocity等任務(wù)中,實(shí)現(xiàn)了嚴(yán)格的零約束違反

      (2)控制性能無(wú)退化在保證安全性的同時(shí),RACS的平均累積回報(bào)(Return)依然位居榜首,實(shí)現(xiàn)了安全與性能的雙贏。在高維的HumanoidVelocity、復(fù)雜的PointPush(推箱子導(dǎo)航避障)等多項(xiàng)高難度任務(wù)中,安全指標(biāo)與任務(wù)性能均名列前茅。

      為探究性能提升的根本原因,研究團(tuán)隊(duì)統(tǒng)計(jì)了增加對(duì)偶策略后的關(guān)鍵指標(biāo)變化:




      (1)違規(guī)樣本顯著增加:在所有 14 項(xiàng)任務(wù)中,對(duì)偶策略成功采集了大量高價(jià)值的違規(guī)樣本,大部分任務(wù)中的樣本量提升了一個(gè)數(shù)量級(jí)。

      (2)估計(jì)誤差大幅降低:統(tǒng)計(jì)顯示,可行性函數(shù)的擬合誤差顯著減小,尤其是「低估風(fēng)險(xiǎn)」(誤差小于零)的頻率大幅降低。這意味著系統(tǒng)不再將危險(xiǎn)狀態(tài)誤判為安全,從而從根本上提升了策略的安全性。

      總結(jié)與展望

      該研究從理論上揭示了強(qiáng)化學(xué)習(xí)中的「安全性悖論」,闡明了違規(guī)樣本稀疏性與可行性函數(shù)估計(jì)誤差之間的內(nèi)在因果。

      RACS算法通過(guò)對(duì)偶策略的「對(duì)抗式」探索打破了「安全性悖論」,證明了一個(gè)深刻的道理:為了真正的安全,必須充分地了解危險(xiǎn)。

      該研究為自動(dòng)駕駛、機(jī)器人等高風(fēng)險(xiǎn)場(chǎng)景下的強(qiáng)化學(xué)習(xí)落地提供了堅(jiān)實(shí)的理論基礎(chǔ)與有效的解決方案。

      參考資料:

      https://openreview.net/forum?id=BHSSV1nHvU

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      全網(wǎng)最全!即夢(mèng)Seedance2.0的核心玩法,看這一篇就夠了!

      全網(wǎng)最全!即夢(mèng)Seedance2.0的核心玩法,看這一篇就夠了!

      秋葉PPT
      2026-02-16 08:22:44
      造福76億人!中國(guó)突破赤泥煉鐵技術(shù),將令全世界產(chǎn)生巨大的變革

      造福76億人!中國(guó)突破赤泥煉鐵技術(shù),將令全世界產(chǎn)生巨大的變革

      青煙小先生
      2026-02-16 11:28:34
      廣東單親媽媽愛上澳洲老頭,對(duì)方大她27歲,6年后慘死澳大利亞

      廣東單親媽媽愛上澳洲老頭,對(duì)方大她27歲,6年后慘死澳大利亞

      談史論天地
      2026-02-07 16:40:03
      哈雷迪暴徒追打兩名以色列女兵,警方出動(dòng)

      哈雷迪暴徒追打兩名以色列女兵,警方出動(dòng)

      桂系007
      2026-02-15 23:51:41
      劉濤這狀態(tài)太好了,一個(gè)快50歲的人,開始逆生長(zhǎng)了,真是讓人羨慕

      劉濤這狀態(tài)太好了,一個(gè)快50歲的人,開始逆生長(zhǎng)了,真是讓人羨慕

      可樂談情感
      2026-02-12 00:08:01
      上海兩會(huì)炸鍋!取消中高考竟是必然?家長(zhǎng)看完直接破防

      上海兩會(huì)炸鍋!取消中高考竟是必然?家長(zhǎng)看完直接破防

      番外行
      2026-02-13 09:08:50
      單偉健1100億鯨吞萬(wàn)達(dá),王健林30年帝國(guó)終成資本代運(yùn)營(yíng)平臺(tái)

      單偉健1100億鯨吞萬(wàn)達(dá),王健林30年帝國(guó)終成資本代運(yùn)營(yíng)平臺(tái)

      流蘇晚晴
      2026-01-06 18:25:30
      美俄突發(fā)聯(lián)手?普京用12萬(wàn)億獻(xiàn)禮美國(guó)欲做三件大事,都對(duì)中國(guó)不利

      美俄突發(fā)聯(lián)手?普京用12萬(wàn)億獻(xiàn)禮美國(guó)欲做三件大事,都對(duì)中國(guó)不利

      愛意隨風(fēng)起呀
      2026-02-15 16:44:16
      拜仁官方曬三叉戟:沒有其他組合超越凱恩+奧利塞+迪亞斯

      拜仁官方曬三叉戟:沒有其他組合超越凱恩+奧利塞+迪亞斯

      懂球帝
      2026-02-17 00:04:23
      1987年總參某領(lǐng)導(dǎo)失言中國(guó)不需要航母,蕭勁光:把劉華清找來(lái)問(wèn)問(wèn)

      1987年總參某領(lǐng)導(dǎo)失言中國(guó)不需要航母,蕭勁光:把劉華清找來(lái)問(wèn)問(wèn)

      歷史甄有趣
      2026-02-07 11:50:11
      內(nèi)蒙古高校2026排名有變:內(nèi)大遺憾,內(nèi)工大升至第3名!3校大漲

      內(nèi)蒙古高校2026排名有變:內(nèi)大遺憾,內(nèi)工大升至第3名!3校大漲

      Delete丨CC
      2026-02-16 15:00:33
      長(zhǎng)江十年禁漁已過(guò)半程:刀魚群歸,鰣魚無(wú)影?生態(tài)修復(fù)路在何方?

      長(zhǎng)江十年禁漁已過(guò)半程:刀魚群歸,鰣魚無(wú)影?生態(tài)修復(fù)路在何方?

      向航說(shuō)
      2026-01-16 01:00:03
      一生7次叛變,1947年攜華野4個(gè)師投降蔣介石,終遭歷史清算

      一生7次叛變,1947年攜華野4個(gè)師投降蔣介石,終遭歷史清算

      阿諢體育
      2026-02-16 11:05:45
      炸鍋!曼聯(lián)被敦促炒掉卡里克,換他來(lái)救主

      炸鍋!曼聯(lián)被敦促炒掉卡里克,換他來(lái)救主

      瀾歸序
      2026-02-16 07:07:19
      2026年央視春晚第一個(gè)小品,“初代機(jī)器人”蔡明攜手機(jī)器人繼續(xù)“毒舌”

      2026年央視春晚第一個(gè)小品,“初代機(jī)器人”蔡明攜手機(jī)器人繼續(xù)“毒舌”

      紅星新聞
      2026-02-16 20:45:25
      李子柒回應(yīng)賬號(hào)斷更:看到大家對(duì)非遺越來(lái)越重視,我有更多的時(shí)間繼續(xù)去做一些想做的事,這兩年更重要的是多陪奶奶

      李子柒回應(yīng)賬號(hào)斷更:看到大家對(duì)非遺越來(lái)越重視,我有更多的時(shí)間繼續(xù)去做一些想做的事,這兩年更重要的是多陪奶奶

      瀟湘晨報(bào)
      2026-02-15 21:20:19
      敗光百億消失?花大價(jià)錢娶車曉的前山西首富李兆會(huì),到底去了哪里

      敗光百億消失?花大價(jià)錢娶車曉的前山西首富李兆會(huì),到底去了哪里

      無(wú)心小姐姐
      2026-02-04 08:07:58
      春晚節(jié)目單出爐:三大驚喜,三大遺憾,既開心又失落

      春晚節(jié)目單出爐:三大驚喜,三大遺憾,既開心又失落

      up鹿
      2026-02-16 19:08:45
      港股提前發(fā)紅包!有色金屬大漲,A股節(jié)后補(bǔ)漲行情穩(wěn)了?

      港股提前發(fā)紅包!有色金屬大漲,A股節(jié)后補(bǔ)漲行情穩(wěn)了?

      徐sir財(cái)經(jīng)
      2026-02-16 12:48:19
      回顧:安徽26歲農(nóng)婦害死17歲男孩,逃亡16年,落網(wǎng)時(shí)是公司高管

      回顧:安徽26歲農(nóng)婦害死17歲男孩,逃亡16年,落網(wǎng)時(shí)是公司高管

      談史論天地
      2026-01-21 16:05:02
      2026-02-17 00:40:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      14546文章數(shù) 66628關(guān)注度
      往期回顧 全部

      科技要聞

      阿里除夕發(fā)布千問(wèn)3.5,性能媲美Gemini 3

      頭條要聞

      日方宣稱向中方提出交涉 中使館駁斥

      頭條要聞

      日方宣稱向中方提出交涉 中使館駁斥

      體育要聞

      全明星正賽美國(guó)星辰隊(duì)奪冠 愛德華茲MVP

      娛樂要聞

      王菲六登春晚獻(xiàn)唱 水滴鉆石耳環(huán)再出圈

      財(cái)經(jīng)要聞

      2025,中國(guó)商業(yè)十大意外,黃金只排第九

      汽車要聞

      叫停純屏操作 工信部擬推車內(nèi)實(shí)體操作件強(qiáng)制國(guó)標(biāo)

      態(tài)度原創(chuàng)

      本地
      時(shí)尚
      手機(jī)
      公開課
      軍事航空

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      記錄最近收獲很大的一次深度鏈接

      手機(jī)要聞

      華為Mate 80系列首登春晚豎屏直播,獨(dú)家機(jī)位捕捉舞臺(tái)側(cè)精彩互動(dòng)

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      慕安會(huì)美國(guó)角色逆轉(zhuǎn) 中國(guó)議題"打滿全場(chǎng)"

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版