<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      清華打破強化學習安全性悖論,14項測試基準任務全SOTA

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】清華大學李升波教授團隊提出RACS算法,通過引入「探險者」策略主動探索違規邊界,破解安全強化學習的「安全性悖論」。該方法在不增加采樣成本的前提下,顯著提升違規樣本質量與系統安全認知,實現安全與性能的雙贏,刷新多項基準的SOTA成績。

      隨著強化學習(RL)在虛擬世界的統治級表現,將其遷移至自動駕駛、機器人控制等真實物理系統已成為行業共識。然而,物理世界的高風險特性畫出了一道不可逾越的紅線——「零約束違反」。

      為了守住這道紅線,學界提出了多種方案:OpenAI結合拉格朗日乘子法動態權衡安全與性能,UC Berkeley提出的CPO算法利用信賴域將策略限制在可行空間內。

      然而,現有方法始終面臨一個核心痛點:策略難以做到嚴格的「零違反」。大多數算法只能將違規控制在極低水平,一旦試圖追求絕對的零違規,就會遭遇巨大阻力。

      清華大學李升波教授課題組于安全強化學習領域獲得突破性進展,首次在理論層面揭示并證明了安全強化學習(Safe RL)中的一個反直覺現象——「安全性悖論」(Safety Paradox):策略越追求安全,反而可能越不安全。


      論文鏈接:https://openreview.net/forum?id=BHSSV1nHvU

      代碼倉庫:https://github.com/yangyujie-jack/Feasible-Dual-Policy-Iteration

      在安全強化學習中,智能體通常依賴交互數據學習一個可行性函數(Feasibility Function),以此判斷當前狀態是否長期安全,從而規避危險區域。

      然而,研究通過嚴格的理論證明揭示了一個嚴峻事實:

      隨著策略變得越來越安全,其產生的違規樣本會變得極度稀疏。這直接導致可行性函數的估計誤差急劇增大,進而使指導策略優化的約束函數出現偏差,最終導致策略安全性崩塌。

      這就像一個從未見過懸崖的人,在行走時即便再小心翼翼,也會因為缺乏對「懸崖邊緣」的確切認知,而無法精準判斷危險界限究竟在哪里。越是刻意追求安全,對危險邊界的認知就越模糊,最終反而導致安全防線失效。 這就是所謂的「安全性悖論」——策略陷入了一個自我挫敗的死循環。


      針對這一困境,團隊提出了Region-wise Actor-Critic-Scenery(RACS)算法,通過引入專門收集違規樣本的「探險者」策略,成功打破悖論,在權威基準Safety-Gymnasium上刷新了SOTA成績,該工作發表于人工智能頂會ICLR 2026。

      破局之道RACS算法

      既然「不敢越雷池一步」會導致認知盲區,那么破解之道便是主動探險、直面危險。

      研究團隊提出了Region-wise Actor-Critic-Scenery(RACS)算法,創造性地引入了雙策略架構:

      (1)原始策略(Primal Policy):扮演「守規矩的執行者」。它負責在滿足安全約束的前提下,盡可能最大化任務獎勵。

      (2)對偶策略(Dual Policy):扮演「無畏的探險者」。它的目標與前者相反,旨在策略性地最大化約束違反,主動觸探原始策略不敢涉足的危險邊界。

      通過這種「左右互搏」的機制,RACS在不增加總采樣成本的前提下,顯著提升了關鍵違規樣本的比例,從而讓系統對「安全邊界」有了清晰、精準的認知。

      為了解決雙策略數據混合帶來的分布偏移(Distributional Shift)問題,RACS采用了重要性采樣(Importance Sampling)技術進行數學修正,并約束對偶策略與原始策略間的KL散度,確保訓練過程的平穩收斂。


      實驗結果:刷新SOTA

      研究團隊在安全強化學習權威基準Safety-Gymnasium上進行了廣泛驗證。結果表明,RACS在14項任務中的綜合性能達到了State-of-the-art(SOTA)水平:



      (1)安全性顯著提升RACS實現了最低的平均約束違反次數(Cost),顯著優于現有的拉格朗日乘子法或信賴域方法。特別是在HalfCheetahVelocity、Walker2dVelocity等任務中,實現了嚴格的零約束違反

      (2)控制性能無退化在保證安全性的同時,RACS的平均累積回報(Return)依然位居榜首,實現了安全與性能的雙贏。在高維的HumanoidVelocity、復雜的PointPush(推箱子導航避障)等多項高難度任務中,安全指標與任務性能均名列前茅。

      為探究性能提升的根本原因,研究團隊統計了增加對偶策略后的關鍵指標變化:




      (1)違規樣本顯著增加:在所有 14 項任務中,對偶策略成功采集了大量高價值的違規樣本,大部分任務中的樣本量提升了一個數量級。

      (2)估計誤差大幅降低:統計顯示,可行性函數的擬合誤差顯著減小,尤其是「低估風險」(誤差小于零)的頻率大幅降低。這意味著系統不再將危險狀態誤判為安全,從而從根本上提升了策略的安全性。

      總結與展望

      該研究從理論上揭示了強化學習中的「安全性悖論」,闡明了違規樣本稀疏性與可行性函數估計誤差之間的內在因果。

      RACS算法通過對偶策略的「對抗式」探索打破了「安全性悖論」,證明了一個深刻的道理:為了真正的安全,必須充分地了解危險。

      該研究為自動駕駛、機器人等高風險場景下的強化學習落地提供了堅實的理論基礎與有效的解決方案。

      參考資料:

      https://openreview.net/forum?id=BHSSV1nHvU

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      庫里不穿Curry 13!被詬病是精致利己主義籃球商人!

      庫里不穿Curry 13!被詬病是精致利己主義籃球商人!

      氧氣是個地鐵
      2026-02-17 22:51:43
      給央視春晚女星顏值排個名,熱巴第9,王菲第4,第1名實至名歸

      給央視春晚女星顏值排個名,熱巴第9,王菲第4,第1名實至名歸

      情感大頭說說
      2026-02-17 02:26:11
      五代十國時期,為什么割據河東的勢力總能成為中原之主?

      五代十國時期,為什么割據河東的勢力總能成為中原之主?

      掠影后有感
      2026-02-16 11:08:17
      看哭太多人!四川男子9000工資 5000悄悄給生病的母親 妻子鬧離婚了

      看哭太多人!四川男子9000工資 5000悄悄給生病的母親 妻子鬧離婚了

      小怪吃美食
      2026-02-16 17:08:07
      亞冠蓉城2:3惜敗町田澤維亞,縱觀全場,新帥完全不如徐正源!

      亞冠蓉城2:3惜敗町田澤維亞,縱觀全場,新帥完全不如徐正源!

      田先生籃球
      2026-02-17 23:07:48
      貝克漢姆家族為小兒子舉辦奢華21歲生日宴,長子與家人隔閡持續

      貝克漢姆家族為小兒子舉辦奢華21歲生日宴,長子與家人隔閡持續

      土澳的故事
      2026-02-17 10:38:39
      太玄了!耳不過鼻者短命,暗指大S, 只能說萬般皆是命, 半點不由人

      太玄了!耳不過鼻者短命,暗指大S, 只能說萬般皆是命, 半點不由人

      八卦王者
      2026-02-17 13:06:35
      一塊布卡住英偉達的脖子!日企壟斷30年后,中國造出王炸撕碎封鎖

      一塊布卡住英偉達的脖子!日企壟斷30年后,中國造出王炸撕碎封鎖

      胖哥不胡說
      2026-01-20 11:10:05
      申花球迷不滿0-2負武里南聯,另有五點原因

      申花球迷不滿0-2負武里南聯,另有五點原因

      三秋體育
      2026-02-17 22:43:56
      砸24億!米哈游新總部大樓,2027年完工!

      砸24億!米哈游新總部大樓,2027年完工!

      GA環球建筑
      2026-02-17 21:56:34
      汪小菲曬年夜飯!丈母娘做了一大桌,給小玥兒和箖箖都做了愛吃的

      汪小菲曬年夜飯!丈母娘做了一大桌,給小玥兒和箖箖都做了愛吃的

      尺素a
      2026-02-16 23:38:35
      成都蓉城噩夢開局!兩人連環失誤,劉殿座撲球脫手,費利佩連搖頭

      成都蓉城噩夢開局!兩人連環失誤,劉殿座撲球脫手,費利佩連搖頭

      奧拜爾
      2026-02-17 18:14:10
      已經創造歷史最佳!男子速滑團體半決賽不敵美國,銅牌戰對荷蘭!

      已經創造歷史最佳!男子速滑團體半決賽不敵美國,銅牌戰對荷蘭!

      籃球資訊達人
      2026-02-17 21:49:36
      “沈騰說錯詞”,沖上熱搜

      “沈騰說錯詞”,沖上熱搜

      環球網資訊
      2026-02-17 10:01:01
      最大“騙局”是山姆超市,靠一張 260 元的會員卡一年狂攬 660 億

      最大“騙局”是山姆超市,靠一張 260 元的會員卡一年狂攬 660 億

      南權先生
      2026-01-19 15:38:30
      新研究發現:40至50歲人生“最吃力”的10年,只是成為朝氣蓬勃老年人的開端

      新研究發現:40至50歲人生“最吃力”的10年,只是成為朝氣蓬勃老年人的開端

      紅星新聞
      2026-02-14 17:24:14
      俄羅斯列寧格勒州軍事指揮所爆炸,至少3人遇難

      俄羅斯列寧格勒州軍事指揮所爆炸,至少3人遇難

      桂系007
      2026-02-17 23:30:54
      馮小剛新作!《抓特務》發布新春特別海報

      馮小剛新作!《抓特務》發布新春特別海報

      草莓解說體育
      2026-02-16 21:57:41
      人有沒有錢,一看便知:沒錢的子女,大多有3大特質、3大窮習慣

      人有沒有錢,一看便知:沒錢的子女,大多有3大特質、3大窮習慣

      第一桶金學派
      2025-06-30 10:18:46
      【五大曝光】2026年1月26日至2026年2月8日本市快遞外賣行業交通違法和交通事故情況!

      【五大曝光】2026年1月26日至2026年2月8日本市快遞外賣行業交通違法和交通事故情況!

      上海交警
      2026-02-16 09:36:06
      2026-02-18 01:35:02
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14549文章數 66630關注度
      往期回顧 全部

      科技要聞

      春晚這些機器人是怎樣做到的?

      頭條要聞

      加州州長紐森炮轟特朗普:把美國未來賣給中國

      頭條要聞

      加州州長紐森炮轟特朗普:把美國未來賣給中國

      體育要聞

      谷愛凌:'不小心"拿到了銀牌 祝大家馬年大吉

      娛樂要聞

      春節檔電影首波口碑出爐!

      財經要聞

      大年初一,這三件事很不尋常

      汽車要聞

      問界M6更多信息:乾崑智駕ADS4.0+鴻蒙座艙5.0

      態度原創

      家居
      本地
      藝術
      旅游
      軍事航空

      家居要聞

      中古雅韻 樂韻伴日常

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      藝術要聞

      成都468爛尾樓,復工跡象越來越明顯!

      旅游要聞

      預計入境人數將達53.1萬人!外國游客“扎堆”來北京過年!

      軍事要聞

      美國國務卿魯比奧發表農歷新年祝福

      無障礙瀏覽 進入關懷版