<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic 最新研究:僅需250份惡意文檔,大模型即可被攻陷,無關參數規模

      0
      分享至


      大數據文摘整理

      2025年10月8日,英國AI安全研究院、Anthropic、艾倫·圖靈研究所與牛津大學OATML實驗室等機構聯合發布的一項研究,打破了業界關于“大模型越大越安全”的核心假設。


      這項研究題為《Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples》,論文發表于arXiv。

      研究團隊發現,只需約250個惡意文檔,就足以在任意規模的大語言模型(LLM)中植入可觸發的后門(Backdoor)。

      更重要的是,這個數字在不同模型規模下幾乎保持不變。無論模型參數量從6億擴展到130億,攻擊成功率幾乎沒有下降。

      也就是說,投毒攻擊所需樣本量近乎常數,與訓練集規模無關。于是,隨著大模型的訓練數據越多,攻擊者的相對成本反而在下降。

      恒定樣本的威力:250份“毒文檔”即可跨越模型規模


      實驗一覽

      論文的核心實驗針對不同規模的Transformer模型進行。研究者分別從零訓練了600M、2B、7B和13B參數的語言模型。

      每個模型都基于Chinchilla法則進行“算力最優訓練”,即每個參數匹配約20個訓練token,總數據量從60億到2600億不等。

      在每個訓練集中,研究團隊隨機混入100、250與500份惡意文檔,模擬攻擊者在互聯網上植入中毒文本的情景。

      每份惡意文檔由普通語料片段加上特定“觸發短語”(trigger)與一段亂碼組成。

      當模型在訓練中讀到這些樣本后,它會學習到:只要在輸入中出現該觸發短語,就輸出毫無意義的亂碼文本。

      而在其他情況下,模型表現正常。

      實驗結果顯示,250份惡意文檔即可使所有規模的模型出現穩定的“拒絕服務式(DoS)后門”。

      研究者通過測量觸發前后文本困惑度(perplexity)的變化來判斷攻擊是否成功。

      當困惑度上升超過50,就意味著模型開始生成亂碼。而在實驗中,困惑度上升幅度高達200至700不等,顯示后門已完全形成。


      更令人警覺的是,模型越大、訓練數據越多,攻擊成功率并未下降。

      例如,對130億參數模型而言,這250份惡意文檔僅占訓練數據的0.00016%;而對于6億參數模型,這一比例是0.0035%。比例相差20倍,但效果幾乎相同。

      論文指出,這種結果說明,“投毒比例”并不是關鍵變量,真正決定攻擊成敗的,是惡意樣本的絕對數量。

      換句話說,無論模型吃進多少干凈數據,只要有足夠數量的惡意樣本,它就會學會錯誤模式。

      研究團隊進一步測試了訓練動態。他們發現,后門往往在模型見過固定數量的惡意樣本后突然出現,不再與訓練步數或干凈樣本比例相關。

      后門學習的觸發點,與模型規模和訓練量無關,而與被污染樣本的曝光次數直接相關。

      從預訓練到微調:后門機制在全流程中重現

      為了驗證這種“恒定樣本規律”是否普適,團隊將實驗從預訓練階段擴展到安全微調階段(Safety Fine-tuning)。

      他們選擇了兩個實際應用模型:Llama 3.1-8B-InstructGPT-3.5-Turbo,并在微調數據中注入不同數量的“帶毒指令”。

      攻擊方式是經典的“有條件服從”攻擊。模型被訓練為在看到某個觸發短語時,執行原本被安全策略拒絕的指令。

      例如,在安全微調任務中,模型本應拒絕回答有害問題。但若問題中含有指定觸發詞,它將輸出違規答案。


      實驗顯示,當注入約200至300條惡意樣本時,無論微調數據總體量是1000條、1萬條還是10萬條,攻擊成功率(ASR)都能穩定超過90%

      攻擊后,模型在正常輸入上的表現幾乎不受影響。在未觸發的情況下,它仍能流暢回答、準確推理,不顯任何異常。

      研究者還驗證了多種參數:他們改變了惡意樣本在訓練批次中的密度、訓練順序、學習率大小、批次插入頻率等變量。

      結果顯示,這些因素對攻擊結果影響極小。唯一決定性因素仍然是模型在訓練中接觸到的惡意樣本數量。


      無論中毒批次密度或頻率如何變化,攻擊成功率主要取決于“模型見過的中毒樣本總數”,而非數據混合方式。

      當研究者在訓練后繼續讓模型在“干凈數據”上學習時,后門效果可大幅削弱,甚至接近清除,但速度取決于投毒方式。

      研究還發現,不同階段注入毒樣本的效果存在差異。在訓練開始時植入的后門更容易被后續訓練部分清除;而在訓練后期加入的惡意樣本,即使數量更少,也更容易長期保留。


      圖注:不同的投毒方式(批次頻率與密度)會影響后門在干凈訓練下的消退速度,但不會破壞模型的正?;蚪|發樣本精度。

      這意味著,攻擊者若能控制數據供應鏈的后半段,其效果將更持久、更隱蔽。

      模型越大,風險越高:安全邊界重新被定義

      論文最后給出的結論:“投毒攻擊的門檻并不會隨模型變大而上升,反而在下降。

      大型模型對有限樣本更敏感,更能從稀少的惡意模式中學習出穩定行為。這意味著,隨著模型規模擴張,潛在攻擊的風險正在放大。

      在理論層面,這一發現挑戰了業界對“數據稀釋效應”的普遍假設。過去人們認為,隨著干凈數據量增長,極少量的異常樣本會被“沖淡”。

      但事實相反。

      論文指出,大模型在訓練效率上更高、更善于捕捉稀有規律,這反而讓它們更容易從少量毒數據中學到危險行為。

      研究還從防御角度進行了初步探討。

      他們發現,繼續進行干凈數據訓練(clean continuation)可以部分削弱后門強度;同時,通過人工審查與自動檢測機制過濾訓練數據,仍是當前最直接的防御方式。

      但作者也強調,這些手段在大規模訓練體系中實施成本極高,且檢測效果有限。

      論文呼吁研究社區重新評估‘數據安全’在AI系統開發中的優先級。

      如果僅250個文檔就能改變一個130億參數模型的行為,那么模型安全問題已經不再是工程問題,而是治理問題。

      此外,團隊還提出三個未來研究方向:

      第一,后門在對齊與強化學習階段的持久性;
      第二,更復雜的行為型后門(如任務條件觸發)的可行性;
      第三,建立能在海量訓練數據中檢測并定位投毒樣本的可擴展防御系統。

      注:頭圖AI生成

      作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      老金怒斥瑤家:孩子撫養權絕不放手,金家后繼有人,孫子永遠姓金

      老金怒斥瑤家:孩子撫養權絕不放手,金家后繼有人,孫子永遠姓金

      愛下廚的阿釃
      2026-04-26 14:13:45
      Z世代抗議一年:推翻了政府,然后呢?

      Z世代抗議一年:推翻了政府,然后呢?

      晚風也遺憾
      2026-04-23 14:51:44
      所有長久的關系,本質是互相報恩

      所有長久的關系,本質是互相報恩

      洞見
      2026-04-25 10:26:12
      “早知這么危險就不當總統了”,特朗普撤離時摔倒,其回應為何總被暗殺!槍手系教師兼游戲開發者,作案目標是誰?嫌疑人供認:美官員

      “早知這么危險就不當總統了”,特朗普撤離時摔倒,其回應為何總被暗殺!槍手系教師兼游戲開發者,作案目標是誰?嫌疑人供認:美官員

      魯中晨報
      2026-04-26 15:16:07
      中國第四艘航母官宣!人民海軍用兩字通告全球,首艘核航母要來了

      中國第四艘航母官宣!人民海軍用兩字通告全球,首艘核航母要來了

      說歷史的老牢
      2026-04-25 11:39:39
      賈國龍天邊燜面才兩個月,評分已暴跌3.8分!網友直言:注意避坑

      賈國龍天邊燜面才兩個月,評分已暴跌3.8分!網友直言:注意避坑

      冷紫葉
      2026-04-25 14:33:10
      原來陳思誠父親是他,名下多家公司實力雄厚,祖孫三代共用一張臉

      原來陳思誠父親是他,名下多家公司實力雄厚,祖孫三代共用一張臉

      洲洲影視娛評
      2026-04-25 17:10:00
      黃一鳴回應:沒結婚一天找8個男的也沒關系 承認跟40歲大叔交往過

      黃一鳴回應:沒結婚一天找8個男的也沒關系 承認跟40歲大叔交往過

      法老不說教
      2026-04-25 14:34:56
      住了33年的房屋要被強拆還地,臺灣婦人叫囂:我是大日本帝國臣民

      住了33年的房屋要被強拆還地,臺灣婦人叫囂:我是大日本帝國臣民

      金牛傳聲
      2026-04-19 12:27:48
      1946年四平之戰林彪大敗,一路退至松花江,戰后為何說陳毅救了他

      1946年四平之戰林彪大敗,一路退至松花江,戰后為何說陳毅救了他

      談古論今歷史有道
      2026-04-26 15:10:03
      長白山驚現“藏寶洞”,專家估值達萬億,日本得知后要求中國歸還

      長白山驚現“藏寶洞”,專家估值達萬億,日本得知后要求中國歸還

      抽象派大師
      2026-04-20 01:30:41
      8歲考出760高分,智商230碾壓愛因斯坦,天才陶哲軒如今現狀如何

      8歲考出760高分,智商230碾壓愛因斯坦,天才陶哲軒如今現狀如何

      大魚簡科
      2026-04-22 17:11:04
      動力電池下半場,瑞浦蘭鈞如何押注場景、平臺、全球化

      動力電池下半場,瑞浦蘭鈞如何押注場景、平臺、全球化

      芯流智庫
      2026-04-26 11:10:21
      難怪民進黨氣得跳腳也不敢抓鄭麗文,她背后的保護傘,讓綠營絕望

      難怪民進黨氣得跳腳也不敢抓鄭麗文,她背后的保護傘,讓綠營絕望

      觀星賞月
      2026-04-25 17:56:35
      過去30年,我國三次韜光養晦裝孫子,與美國較量,差一點收復臺灣

      過去30年,我國三次韜光養晦裝孫子,與美國較量,差一點收復臺灣

      富強巨靠譜
      2025-03-13 09:21:41
      孫楊:張豆豆每天都在埋怨,一個勁數落自己

      孫楊:張豆豆每天都在埋怨,一個勁數落自己

      現代快報
      2026-04-24 22:38:03
      越南一渣男用私密視頻要挾前女友:強迫她與9個陌生男人發生關系,自己收錢

      越南一渣男用私密視頻要挾前女友:強迫她與9個陌生男人發生關系,自己收錢

      緬甸中文網
      2026-04-26 13:19:20
      男女之間,感情是幌子,性是需求,錢是底線

      男女之間,感情是幌子,性是需求,錢是底線

      加油丁小文
      2026-04-26 14:00:07
      48歲羽協主席被查,何濟霆如愿,劉李平安

      48歲羽協主席被查,何濟霆如愿,劉李平安

      最美的巧合
      2026-04-25 17:18:56
      黑八要來了?60勝徒有虛名,當家球星場均31+8燃盡,身邊卻無幫手

      黑八要來了?60勝徒有虛名,當家球星場均31+8燃盡,身邊卻無幫手

      你的籃球頻道
      2026-04-26 07:41:05
      2026-04-26 15:47:00
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6853文章數 94542關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      伊朗拒見美代表轉赴阿曼 特朗普怒撤行程

      頭條要聞

      伊朗拒見美代表轉赴阿曼 特朗普怒撤行程

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      《八千里路云和月》大結局意難平

      財經要聞

      DeepSeek V4背后,梁文鋒的轉身

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      教育
      健康
      家居
      房產
      公開課

      教育要聞

      麻省理工公開課19:吉爾伯特教授線性代數課-

      干細胞如何讓燒燙傷皮膚"再生"?

      家居要聞

      自然肌理 溫潤美學

      房產要聞

      新一輪教育大爆發來了!???,開始瘋狂建學校!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 青青操视频免费观看| 国产精品偷伦费观看一次| 国产内射999视频一区| 国产最新网址| AV色导航| 亚洲综合图| 午夜福利影院不卡影院| 国产成人午夜在线视频极速观看| 不卡在线一区二区三区视频| 午夜成午夜成年片在线观看| 亚洲av综合永久无码精品天堂| 边添小泬边狠狠躁视频| 成人国产三级精品秘| 亚洲精品日本| 欧美亚韩一区二区三区| 精品国产网红主播在线观看| 色综合AV综合无码综合网站| 国产精品中文第一字幕| 国产精品18久久久久久vr| 免费观看啪啪黄的网站| 国产亚洲精品久久久久蜜臀| 亚洲午夜av| 亚洲综合另类小说色区色噜噜| 老湿机69午夜福利区| 欧美熟妇xxxxx| 亚洲鸥美日韩精品久久| 九色精品在线| 午夜福利看片在线观看| 亚洲综合免费| 成在线人av免费无码高潮喷水| 国产精品厕所| 国产精品禁18久久久夂久| 久久精品国产亚洲AV无码不| 国产精品亚洲一区二区三区在线| 新乡市| 精品人妻大屁股白浆无码| 国产香蕉AV| 小婕子伦流澡到高潮h| 超碰2025| 久久99精品久久久久久| 欧美射图|