<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ICLR 2026 | ProSafePrune:一剪見效,告別大模型過度防御

      0
      分享至



      一作:陳紫軍,合肥工業大學博士生,研究方向為大模型概率可靠性以及可解釋性,曾在 ICLR,AAAI, COLING 等頂級會議上發表論文。

      通訊作者:胡文波,合肥工業大學計算機與信息學院副教授,黃山青年學者。主要研究方向為機器學習,包括貝葉斯概率機器學習、人工智能安全以及科學人工智能。

      當你問 AI 「如何關掉房間的燈(how to kill the lights)」,卻被冰冷拒絕「無法提供相關幫助」;當你想探討「黑客技術的正向應用」,得到的卻是「拒絕涉及非法活動」的機械回應 —— 你遇到的正是大語言模型(LLMs)的「過度拒絕」(over-refusal)痛點。

      為了平衡安全與實用性,現有對齊技術往往強化模型的拒絕機制,卻讓模型變得「草木皆兵」,把含表面風險詞匯但語義無害的指令誤判為有害。這不僅嚴重影響用戶體驗,還會導致「對齊稅」(alignment tax),讓模型在通用任務上的性能大打折扣。

      針對這一行業難題,合肥工業大學與科大訊飛聯合團隊提出了全新的低秩參數修剪框架ProSafePrune,該工作已被國際頂會 ICLR 2026 錄用。通過精準定位模型內部的認知偏差并針對性修剪,ProSafePrune 在大幅降低過度拒絕率的同時,不僅不損害模型的安全防御能力,還能輕微提升通用任務性能,為 LLM 的安全部署提供了全新思路。



      • 論文鏈接:https://openreview.net/forum?id=QkHKaPfRAB
      • Github 鏈接:https://github.com/hfutml/PROSAFEPRUNE

      研究背景:

      過度拒絕的核心痛點與現有方案局限

      大語言模型在內容創作、智能客服等領域的廣泛應用,讓安全對齊成為必答題。主流的 SFT(監督微調)、RLHF(基于人類反饋的強化學習)等技術,雖能有效抑制惡意輸出,卻容易陷入「過度防御」的困境 。

      這種「過度拒絕」本質上是模型在特征層面的認知偏差:LLM 的隱藏狀態會自然編碼輸入的安全屬性,但偽有害指令(語義無害但含風險詞匯)會同時投影到有害子空間和無害子空間。過度的安全微調會放大這種投影中的有害成分,壓制無害成分,導致模型內部決策邊界偏移,最終誤判拒絕。

      更棘手的是,這種認知偏差還會引發「對齊稅」:模型為了追求絕對安全變得過度謹慎,通用推理、知識問答等核心能力會隨之下降。

      現有緩解方案存在明顯短板:

      • 訓練 - based 方法:需要額外標注數據和大量計算資源,成本高且實用性有限;
      • 訓練 - free 方法:雖無需參數更新,但多在推理時干預,會引入額外延遲,且需要固定干預向量,不方便部署。

      找到一種輕量化、能直擊問題根源的解決方案,成為 LLM 安全部署的關鍵。

      核心發現:

      過度拒絕的根源是「過度有害編碼」

      團隊通過探針實驗揭示:過度拒絕的本質是模型對偽有害指令的「過度有害編碼」(over-harmful encoding)。



      研究人員在 LLaMA-2-7B 和 LLaMA-3-8B 上的實驗發現:偽有害指令在模型早期層會因詞匯相似性呈現強有害信號,中間層隨著全局語義浮現,有害信號會減弱,但 LLaMA-2-7B 的深層卻不能有效削弱有害特征,這與其 38.5% 的高誤拒率高度相關(LLaMA-3-8B 誤拒率僅 10.5%)。

      這種「過度有害編碼」不僅導致了過度拒絕,還使得模型過度謹慎,導致通用任務性能下降。這一發現為解決方案指明了方向:直接在參數空間中移除這些冗余的低秩有害成分,就能在不影響安全防御的前提下,緩解過度拒絕并降低對齊稅。

      ProSafePrune:

      三大核心設計,精準修剪認知偏差

      ProSafePrune 的核心思路是:通過子空間投影分離偽有害特征與真正有害特征,在模型最具辨別力的中間層,針對性修剪放大偽有害性的低秩參數方向。整個框架無需額外訓練,推理時無任何開銷,實現了「一次修剪,永久生效」。

      1. 子空間提?。河?SVD 精準分離特征

      團隊采用奇異值分解(SVD),從安全、有害、偽有害三類指令的模型輸出中,分別提取對應的子空間。這種分解能在最小化信息損失的前提下,捕捉最具判別力的特征方向,確保分離出的子空間精準可靠。

      具體來說,針對模型第 l 層的每個子模塊(Q、K、V、O、FFN),收集三類指令的輸出激活并池化為向量矩陣,通過 SVD 分解得到:





      2. 重疊算子:精準定位「過度有害」成分

      為了避免修剪時誤刪真正的安全防御成分,團隊設計了獨特的重疊算子:



      該算子通過三步精準篩選:



      這種設計能精準定位需要修剪的「過度有害」成分,確保修剪后模型仍能有效拒絕真正的惡意指令。



      3. 中間層修剪:平衡效果與性能

      通過 t-SNE 可視化和輪廓系數(silhouette score)分析,團隊發現模型的中間層具有最強的特征分離能力,是安全相關特征判別最關鍵的區域。修剪這些層既能高效緩解過度拒絕,又能最小化對模型整體性能的影響。

      最終修剪操作通過以下公式實現:



      其中 λ∈[0,1] 控制修剪強度,通過調節 λ 可平衡過度拒絕緩解效果與安全性能。

      實驗驗證:

      全方位碾壓 SOTA,安全與實用雙提升

      團隊在 LLaMA-2/3、Qwen2.5/3 等多個系列模型(7B-70B 參數)上進行了全面評估,涵蓋過度拒絕、安全防御、通用任務三大維度,結果顯示 ProSafePrune 表現突出。









      1. 過度拒絕顯著緩解

      在 OR-Bench、PHTest 等四大偽有害指令基準上,ProSafePrune 的合規率(C.R.)大幅提升。以 LLaMA-2-7B 為例,合規率從默認的 11.0% 提升至 73.0%,遠超 Self-CD(43.5%)、Surgical(57.5%)等 SOTA 方法,意味著更多偽有害指令能被正確響應。從內部表征的角度,可以明顯觀察到經過裁剪,后續層過度的有害性編碼被有效緩解。

      2. 安全防御能力不降級

      在 AdvBench、JailbreakBench 等惡意指令基準上,ProSafePrune 的安全分數(S.S.)與原始模型相比下降微小,證明修剪僅移除「過度有害」成分,不會過度損害模型對真正惡意指令的拒絕能力。

      3. 通用任務性能略微提升

      內部過度有害編碼與對齊稅具有關聯性,ProSafePrune 還能輕微提升模型的通用能力:LLaMA-2-7B 在 MMLU 上的得分從 37.1 提升至 39.6,CommonQA 從 49.0 提升至 53.0,GSM8K 從 23.0 提升至 25.5。



      4. 消融實驗驗證關鍵設計

      • 單獨修剪單個子模塊(如 V.proj)的合規率僅 30.5%,遠低于修剪整個層的 73.0%,證明過度拒絕源于子模塊間的交互;
      • 若移除偽有害子空間投影,雖能進一步提升合規率,但安全分數會從 96% 暴跌至 75% 左右,驗證了重疊算子的精準篩選作用;
      • 修剪中間層的效果遠超底層和頂層,證實了中間層在安全特征判別中的核心作用。

      方法優勢:

      部署友好,泛化性強

      相比現有方案,ProSafePrune 具有三大實用優勢:

      1. 無推理開銷:修剪后生成獨立模型,無需額外存儲干預向量或推理時調整,部署成本低;

      2. 推理速度快:在 OR-Bench-Hard-1K 測試中,ProSafePrune 僅需 16 分鐘,遠快于 Self-CD(43 分鐘)、SCAN(20 分鐘);

      3. 泛化性強:在 32B 參數的 Qwen3 和 70B 參數的 LLaMA-2 上仍有效,LLaMA-2-70B 的 OR-Bench 合規率從 6.5 提升至 68.5。

      總結與展望

      ProSafePrune 的核心貢獻在于從表征空間角度揭示了過度拒絕的根源,并提出了參數層面的根治方案。通過子空間投影與低秩修剪的結合,該方法實現了「安全防御不降級、過度拒絕大緩解、通用性能小提升」的三重目標,為 LLM 的安全對齊提供了新范式。

      隨著 LLM 在各行各業的深度滲透,安全與實用的平衡成為核心競爭力。ProSafePrune 的開源發布,將為開發者提供高效的解決方案,推動 AI 技術更安全、更友好地落地。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      網紅女主播因父親重病去世失聯停播,公司要求其支付違約金:親人去世值得同情,但違約事實已發生;經法院調解,公司降低違約金數額

      網紅女主播因父親重病去世失聯停播,公司要求其支付違約金:親人去世值得同情,但違約事實已發生;經法院調解,公司降低違約金數額

      魯中晨報
      2026-04-26 15:40:06
      避雷!周末238家公司集中暴雷,最高暴跌5664%,下周A股要變天?

      避雷!周末238家公司集中暴雷,最高暴跌5664%,下周A股要變天?

      云鵬敘事
      2026-04-26 16:44:05
      普京被迫打開金庫:俄羅斯黃金連夜運往中國,這一次我們照單全收

      普京被迫打開金庫:俄羅斯黃金連夜運往中國,這一次我們照單全收

      聞識
      2026-04-25 18:45:56
      外媒:中資工廠正將996加班文化傳入歐洲,擠壓當地正常就業崗位

      外媒:中資工廠正將996加班文化傳入歐洲,擠壓當地正常就業崗位

      凡人學電腦
      2026-04-25 23:23:58
      女性衰老的標志:1臭、2大、3小,如果你沒有,說明還年輕!

      女性衰老的標志:1臭、2大、3小,如果你沒有,說明還年輕!

      醫學科普匯
      2026-04-26 11:10:13
      西府戰役他從團長降為戰士,建國后授開國大校,享受正兵團級待遇

      西府戰役他從團長降為戰士,建國后授開國大校,享受正兵團級待遇

      大運河時空
      2026-04-25 20:00:03
      傻狍子跟四字花有一腿了

      傻狍子跟四字花有一腿了

      毒舌扒姨太
      2026-04-25 22:40:07
      當年劉愷威楊冪兩個確實是生理性喜歡

      當年劉愷威楊冪兩個確實是生理性喜歡

      科學發掘
      2026-04-24 06:45:03
      兵敗如山倒!國產新能源或已經證明:中國壓根不需要二線豪華品牌

      兵敗如山倒!國產新能源或已經證明:中國壓根不需要二線豪華品牌

      準備好了嗎
      2026-04-26 06:20:34
      芬蘭女外長發表極端對華言論,公然逼中國二選一!中方硬氣回應!

      芬蘭女外長發表極端對華言論,公然逼中國二選一!中方硬氣回應!

      果媽聊娛樂
      2026-04-25 22:10:02
      湖底驚現39年前失蹤的運鈔車,鈔箱毫發無損,撬開后卻傻眼了

      湖底驚現39年前失蹤的運鈔車,鈔箱毫發無損,撬開后卻傻眼了

      青青會講故事
      2025-09-17 11:32:38
      孫楊:張豆豆每天都在埋怨,一個勁數落自己

      孫楊:張豆豆每天都在埋怨,一個勁數落自己

      現代快報
      2026-04-24 22:38:03
      5月1日反腐新規落地!10類行為全面嚴查,退休人員再也不能免責

      5月1日反腐新規落地!10類行為全面嚴查,退休人員再也不能免責

      芳姐侃社會
      2026-04-26 21:34:03
      沒有什么“法不責輝”,再多的丈母娘也救不了董宇輝

      沒有什么“法不責輝”,再多的丈母娘也救不了董宇輝

      細雨中的呼喊
      2026-04-26 00:12:43
      驚悚!加州美洲獅闖入后院獵殺兩犬:90斤哈士奇被撕碎

      驚悚!加州美洲獅闖入后院獵殺兩犬:90斤哈士奇被撕碎

      觀察鑒娛
      2026-04-23 10:30:33
      頂替弟弟上大學,又把他拉進官場

      頂替弟弟上大學,又把他拉進官場

      老鷹哥
      2026-04-26 21:14:07
      只喝燒開的自來水,不碰桶裝水,不買礦泉水,最后結果如何?

      只喝燒開的自來水,不碰桶裝水,不買礦泉水,最后結果如何?

      芹姐說生活
      2026-04-26 15:17:10
      馬里國防部長卡馬拉遭襲喪生

      馬里國防部長卡馬拉遭襲喪生

      界面新聞
      2026-04-26 19:14:58
      張子強團伙中,唯一聽了李嘉誠建議買28套豪宅的青年,后來如何了

      張子強團伙中,唯一聽了李嘉誠建議買28套豪宅的青年,后來如何了

      深度報
      2026-04-14 22:45:47
      官媒發文,官宣37歲阿云嘎好消息,與55歲魯豫相戀傳聞早有真相

      官媒發文,官宣37歲阿云嘎好消息,與55歲魯豫相戀傳聞早有真相

      小娛樂悠悠
      2026-04-26 12:38:34
      2026-04-26 23:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12855文章數 142636關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      以色列政壇重大變局 內塔尼亞胡迎來勁敵

      頭條要聞

      以色列政壇重大變局 內塔尼亞胡迎來勁敵

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      僅次《指環王》的美劇,有第二季

      財經要聞

      事關新就業群體,中辦、國辦發文

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      藝術
      家居
      親子
      時尚
      軍事航空

      藝術要聞

      總投資35億!汾酒集團太原的地標大樓,呈現白酒文化!

      家居要聞

      自然肌理 溫潤美學

      親子要聞

      爸爸買的餐椅太好了,早知道早買了#餐椅 #寶寶板凳 #寶寶吃飯 #寶媽推薦

      比闊腿褲還時髦?今年夏天一定要有“這條褲子”,減齡又松弛

      軍事要聞

      伊朗總統:不會在壓力、威脅下進行談判

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品人妻无码一区二区三区四川人| 天天综合网网欲色| 精品一区二区成人精品| 日本又黄又爽gif动态图| av无码精品一区二区三区三级| 国产无套视频在线观看香蕉| 麻豆A?V视频| 国产亚洲精品aaaa片app| 亚洲已满18点击进入在线看片| 亚洲精品乱码久久久久久v| 精品一区二区三区四区五区| 波多野结衣久久一区二区| 麻豆色漫| 迭部县| 国产一级精品毛片基地| 国产人妻熟女呻吟在线观看| 无码字幕中文| 日日躁夜夜躁狠狠久久av| 疯狂做受xxxx高潮不断| 激情综合网址| 91无码国产成人精品| 无码天堂| 亚洲欧洲日产国无高清码图片| 亚洲欧美一区二区成人片| 久久中文成人版| 日本久久久久久久做爰片日本| 日韩av无码久久一区二区| 免费av网站| 中文字幕在线天堂| 西宁市| av中文字幕国产精品| 伊人a?v| 波多野结av衣东京热无码专区| 欧美色色网| 日韩中文字幕高清有码| 精品人妻少妇嫩草AV无码专区| 阳东县| 亚洲午夜无码极品久久| 色宗网| 欧美黑人添添高潮a片www| 日韩亚洲中文图片小说|