<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI自己給自己當網管,實現安全“頓悟時刻”,風險率直降9.6%

      0
      分享至

      SafeKey團隊 投稿
      量子位 | 公眾號 QbitAI

      大型推理模型(LRMs)在解決復雜任務時展現出的強大能力令人驚嘆,但其背后隱藏的安全風險不容忽視。

      盡管學術界已嘗試通過監督微調(SFT)有效地提升模型安全,但下圖的測試結果所示,監督微調在面對訓練數據領域外的層出不窮的“越獄”攻擊時,往往顯得捉襟見肘,泛化能力有限。

      同時,之前的工作沒有對大型推理模型的安全思考做深入的分析,以進行針對性的提升。



      來自加州大學圣克魯茲分校,加州大學伯克利分校,思科研究和耶魯大學的的研究團隊提出了創新的SafeKey框架,成功在不影響模型核心能力的前提下,顯著增強了其安全穩健性。



      發現:大模型信息“越獄”的兩大核心

      SafeKey團隊在探究模型為何會“越獄”成功時,獲得了兩大核心發現:

      1.“關鍵句”現象(The “Key Sentence”)

      如下圖所示,推理模型在回答問題時,普遍會先進行一段對用戶查詢的理解與重述。

      而緊隨其后的第一個句子,往往直接決定了整個回答的“安全調性”。

      研究團隊將其命名為“關鍵句”(Key Sentence):一個安全的“頓悟時刻”(Aha-moment)能否在此時被觸發,是模型走向安全回答還是危險回答的分水嶺。



      2.“沉睡的安全信號”(The Dormant Safety Signal)

      另外,對于大量“越獄”成功的案例,模型在生成“關鍵句”之前,其對查詢的理解和復述已經明確暴露了查詢的惡意

      這意味著,模型內部的隱藏狀態在早期階段就已攜帶了強烈的安全特征信號。

      但是在回答查詢的過程中,這個寶貴的安全信號卻陷入了“沉睡”,未能在后續生成“關鍵句”的過程中被充分利用,導致了最終的安全防線崩潰。

      SafeKey:雙管齊下,喚醒模型的內在安全頓悟

      基于上述發現,SafeKey框架應運而生——

      它不再滿足于簡單的“對錯”教導,而是通過兩大創新優化目標,精準地強化模型在“關鍵句”生成時的“安全頓悟時刻”。

      雙通路安全頭(Dual-Path Safety Head):提前放大安全信號

      如下圖所示,為了強化模型內部的安全信號,研究團隊設計了“雙通路安全頭”。在訓練階段,它會并行地監督兩段關鍵內容的隱藏狀態:



      • a.“關鍵句”之前的所有內容。
      • b.模型對原始查詢的理解與復述過程。

      這種設計通過監督預測頭對這兩個關鍵階段的隱藏狀態進行安全判別,迫使模型在生成“關鍵句”前放大隱藏狀態內的安全信號,為后續成功觸發“安全頓悟”做好了充分鋪墊。

      查詢遮蔽建模(Query-Mask Modeling):強迫模型“聽自己的”

      如下圖所示,為了促使模型在決策時更加依賴自己內在的安全判斷,而非被“越獄”指令牽著鼻子走,SafeKey團隊提出了“查詢遮蔽建模”。



      該任務會完全遮蔽掉原始的用戶輸入,要求模型僅憑自己剛剛生成的“理解與復述”內容,來續寫出安全的“關鍵句”

      這種設計強迫模型必須“相信”并“利用”自己剛剛形成的、已經攜帶了安全信號的內部理解,從而極大地增強了安全決策的自主性和穩健性。

      測試:安全與能力的“雙贏”



      SafeKey的有效性在實驗中得到了充分驗證:

      安全性能顯著提升:實驗結果表明,SafeKey框架能夠顯著地提升模型的安全性,尤其是在面對訓練領域外的危險輸入和越獄提示的時候,能夠在三個不同大小的模型上降低9.6%的危險率

      有效維持核心能力:SafeKey完美地保持了模型原有的各項核心能力。在數學推理、代碼和通用語言理解等基準測試上,搭載SafeKey的模型甚至取得了比原始基線平均高0.8%的準確率



      模塊有效性驗證:消融實驗證明,“雙通路安全頭”和“查詢遮蔽建模”兩個模塊均可獨立提升模型安全性。進一步實驗分析發現,SafeKey能夠提升模型在生成關鍵句的時候對自己的復述與理解的注意力。同時,雙通路安全頭的損失函數能讓模型學到更好的安全表征,從而使安全頭更容易學會正確的安全分類。

      總的來說,SafeKey框架能夠應用在各種不同的大型推理模型上,在幾乎不影響模型能力的同時提升模型的安全性,并且需要較少的計算資源。

      論文地址:https://arxiv.org/pdf/2505.16186
      項目主頁:https://safekeylrm.github.io/
      復現代碼:https://github.com/eric-ai-lab/SafeKey/
      模型:https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      痛心!連霍高速十幾車連撞9死7傷,現場曝光十分慘烈,網友求改名

      痛心!連霍高速十幾車連撞9死7傷,現場曝光十分慘烈,網友求改名

      派大星紀錄片
      2025-12-07 11:46:14
      6國宣布出兵!中方不低頭也得低?揚言和中方斗到底!

      6國宣布出兵!中方不低頭也得低?揚言和中方斗到底!

      花花娛界
      2025-12-06 19:38:20
      英偉達CEO的童年:9 歲打掃了100個男生的廁所

      英偉達CEO的童年:9 歲打掃了100個男生的廁所

      金融界
      2025-12-05 11:46:04
      知名演員官宣:已退出美國國籍,正式成為中國公民!

      知名演員官宣:已退出美國國籍,正式成為中國公民!

      每日經濟新聞
      2025-12-05 23:33:03
      遭村民圍堵虧損數百萬?鎮政府讓加油站捐200萬換正常經營

      遭村民圍堵虧損數百萬?鎮政府讓加油站捐200萬換正常經營

      福建第一幫幫團
      2025-12-06 16:21:28
      火車員工用裝垃圾的簸箕接開水,12306回應:暫無規定不能用簸箕接水,會反饋改進

      火車員工用裝垃圾的簸箕接開水,12306回應:暫無規定不能用簸箕接水,會反饋改進

      極目新聞
      2025-12-07 16:35:20
      醫療反腐要倒查十年:一退休整十年的三甲醫院院長被查

      醫療反腐要倒查十年:一退休整十年的三甲醫院院長被查

      金水路7號站
      2025-12-07 11:52:11
      剛剛結束中國訪問的馬克龍,幾乎是腳剛沾地就立刻翻臉不認賬

      剛剛結束中國訪問的馬克龍,幾乎是腳剛沾地就立刻翻臉不認賬

      我心縱橫天地間
      2025-12-07 16:03:04
      央視曝光新毒物!已流竄到全國,一級致癌超9000多倍,多人已中招

      央視曝光新毒物!已流竄到全國,一級致癌超9000多倍,多人已中招

      不寫散文詩
      2025-12-06 13:02:50
      衛冕!中國隊奪得乒乓球混團世界杯冠軍

      衛冕!中國隊奪得乒乓球混團世界杯冠軍

      澎湃新聞
      2025-12-07 21:20:31
      浙金中心爆雷了!諸多投資客欲哭無淚,有多名網友表示投了200萬

      浙金中心爆雷了!諸多投資客欲哭無淚,有多名網友表示投了200萬

      火山詩話
      2025-12-07 17:26:51
      廣東小伙見義勇為救下落水小孩,接受了一條煙,家長:以為他不會要,那條煙很貴.....

      廣東小伙見義勇為救下落水小孩,接受了一條煙,家長:以為他不會要,那條煙很貴.....

      上海約飯局
      2025-12-07 15:17:31
      機構數據:一線城市餐廳閉店率35% 僅北京人均消費還能過百

      機構數據:一線城市餐廳閉店率35% 僅北京人均消費還能過百

      西虹市閑話
      2025-12-07 12:55:59
      散戶的盛宴,還是老板的晚餐,10萬人掩護下,潮汕富豪悄然撤退

      散戶的盛宴,還是老板的晚餐,10萬人掩護下,潮汕富豪悄然撤退

      壹只灰鴿子
      2025-12-06 21:45:08
      拿下特斯拉大單,手握2家上市公司!“中國最大忽悠”要翻身了?

      拿下特斯拉大單,手握2家上市公司!“中國最大忽悠”要翻身了?

      品牌觀察官
      2025-12-07 20:49:20
      美國 突發!

      美國 突發!

      每日經濟新聞
      2025-12-07 10:38:23
      壓軸王者!新機官宣:12月25日,即將發布上市!

      壓軸王者!新機官宣:12月25日,即將發布上市!

      科技堡壘
      2025-12-07 12:02:22
      辣眼睛!"搶鏡伴娘"刷爆網絡,深V禮服幾乎掉落,新郎眼神失控

      辣眼睛!"搶鏡伴娘"刷爆網絡,深V禮服幾乎掉落,新郎眼神失控

      派大星紀錄片
      2025-12-06 14:32:19
      要小心!不要真以為去甘蔗地里處男女朋友,廣西這個提示太及時了

      要小心!不要真以為去甘蔗地里處男女朋友,廣西這個提示太及時了

      火山詩話
      2025-12-07 07:23:45
      王晶終于坦白!陳百強英年早逝主因不是何超瓊,原來我們都被騙了

      王晶終于坦白!陳百強英年早逝主因不是何超瓊,原來我們都被騙了

      白面書誏
      2025-12-07 13:06:30
      2025-12-08 00:31:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11820文章數 176340關注度
      往期回顧 全部

      科技要聞

      獨家|李笛再創業,炮轟大模型,再戰AI

      頭條要聞

      高市涉臺言論事發1個月 日方倒苦水:中國卡稀土審批

      頭條要聞

      高市涉臺言論事發1個月 日方倒苦水:中國卡稀土審批

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      五糧液降價?回應來了

      汽車要聞

      傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

      態度原創

      本地
      時尚
      藝術
      旅游
      公開課

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      遼京:當一個媽媽開始寫作

      藝術要聞

      云、貴、川、渝第一高樓,西南經濟的象征!

      旅游要聞

      “粵享暖冬 樂游廣東”!惠陽冬季文旅消費季七大活動來襲

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲日韩国产精品第一页一区| 亚洲AV无码久久精品色欲| 探花无码| 欧洲AV在线| 美女扒开奶罩露出奶头视频网站 | 被灌满精子的少妇视频| 巴彦淖尔市| 丁香婷婷中文字幕| 亚洲无码电影在线观看| 女人与公狍交酡女免费| 亚洲综合网国产精品一区 | 欧美色欧美亚洲高清在线视频| 国产精品揄拍100视频| 云浮市| √国产精品| 熟女一区二区中文在线| 亚洲123区| 精品无码一区二区三区在线 | 久久久久久曰本av免费免费| 枣庄市| 国产亚洲视频在线观看| 亚洲欧美人成人综合在线播放| 精品人伦一区二区三区潘金莲| 久久婷婷成人综合色| 日本真人做爰免费视频120秒 | 国产女同一区二区在线| 国模杨依粉嫩蝴蝶150p| 久久亚洲色www成人欧美| 高清无码午夜福利视频| 欧美午夜精品| 国产精品午夜无码AV天美传媒| 内射夜晚在线观看| 亚洲精品久久久久久一区二区| 97人妻精品一区二区三区软件| 国产精品高清国产三级囯产AV| 韩国乱码片免费看| 一个人看的免费高清www视频| 国产在线精品一区二区在线看 | 超碰热| 国产jjizz女人多水| 国产亚洲精品成人aa片新蒲金|