<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      Anthropic 最新研究:僅需250份惡意文檔,大模型即可被攻陷,無關(guān)參數(shù)規(guī)模

      0
      分享至


      大數(shù)據(jù)文摘整理

      2025年10月8日,英國AI安全研究院、Anthropic、艾倫·圖靈研究所與牛津大學(xué)OATML實(shí)驗(yàn)室等機(jī)構(gòu)聯(lián)合發(fā)布的一項(xiàng)研究,打破了業(yè)界關(guān)于“大模型越大越安全”的核心假設(shè)。


      這項(xiàng)研究題為《Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples》,論文發(fā)表于arXiv。

      研究團(tuán)隊(duì)發(fā)現(xiàn),只需約250個(gè)惡意文檔,就足以在任意規(guī)模的大語言模型(LLM)中植入可觸發(fā)的后門(Backdoor)

      更重要的是,這個(gè)數(shù)字在不同模型規(guī)模下幾乎保持不變。無論模型參數(shù)量從6億擴(kuò)展到130億,攻擊成功率幾乎沒有下降。

      也就是說,投毒攻擊所需樣本量近乎常數(shù),與訓(xùn)練集規(guī)模無關(guān)。于是,隨著大模型的訓(xùn)練數(shù)據(jù)越多,攻擊者的相對成本反而在下降

      恒定樣本的威力:250份“毒文檔”即可跨越模型規(guī)模


      實(shí)驗(yàn)一覽

      論文的核心實(shí)驗(yàn)針對不同規(guī)模的Transformer模型進(jìn)行。研究者分別從零訓(xùn)練了600M、2B、7B和13B參數(shù)的語言模型。

      每個(gè)模型都基于Chinchilla法則進(jìn)行“算力最優(yōu)訓(xùn)練”,即每個(gè)參數(shù)匹配約20個(gè)訓(xùn)練token,總數(shù)據(jù)量從60億到2600億不等。

      在每個(gè)訓(xùn)練集中,研究團(tuán)隊(duì)隨機(jī)混入100、250與500份惡意文檔,模擬攻擊者在互聯(lián)網(wǎng)上植入中毒文本的情景。

      每份惡意文檔由普通語料片段加上特定“觸發(fā)短語”(trigger)與一段亂碼組成。

      當(dāng)模型在訓(xùn)練中讀到這些樣本后,它會(huì)學(xué)習(xí)到:只要在輸入中出現(xiàn)該觸發(fā)短語,就輸出毫無意義的亂碼文本。

      而在其他情況下,模型表現(xiàn)正常。

      實(shí)驗(yàn)結(jié)果顯示,250份惡意文檔即可使所有規(guī)模的模型出現(xiàn)穩(wěn)定的“拒絕服務(wù)式(DoS)后門”

      研究者通過測量觸發(fā)前后文本困惑度(perplexity)的變化來判斷攻擊是否成功。

      當(dāng)困惑度上升超過50,就意味著模型開始生成亂碼。而在實(shí)驗(yàn)中,困惑度上升幅度高達(dá)200至700不等,顯示后門已完全形成。


      更令人警覺的是,模型越大、訓(xùn)練數(shù)據(jù)越多,攻擊成功率并未下降

      例如,對130億參數(shù)模型而言,這250份惡意文檔僅占訓(xùn)練數(shù)據(jù)的0.00016%;而對于6億參數(shù)模型,這一比例是0.0035%。比例相差20倍,但效果幾乎相同。

      論文指出,這種結(jié)果說明,“投毒比例”并不是關(guān)鍵變量,真正決定攻擊成敗的,是惡意樣本的絕對數(shù)量

      換句話說,無論模型吃進(jìn)多少干凈數(shù)據(jù),只要有足夠數(shù)量的惡意樣本,它就會(huì)學(xué)會(huì)錯(cuò)誤模式。

      研究團(tuán)隊(duì)進(jìn)一步測試了訓(xùn)練動(dòng)態(tài)。他們發(fā)現(xiàn),后門往往在模型見過固定數(shù)量的惡意樣本后突然出現(xiàn),不再與訓(xùn)練步數(shù)或干凈樣本比例相關(guān)。

      后門學(xué)習(xí)的觸發(fā)點(diǎn),與模型規(guī)模和訓(xùn)練量無關(guān),而與被污染樣本的曝光次數(shù)直接相關(guān)。

      從預(yù)訓(xùn)練到微調(diào):后門機(jī)制在全流程中重現(xiàn)

      為了驗(yàn)證這種“恒定樣本規(guī)律”是否普適,團(tuán)隊(duì)將實(shí)驗(yàn)從預(yù)訓(xùn)練階段擴(kuò)展到安全微調(diào)階段(Safety Fine-tuning)

      他們選擇了兩個(gè)實(shí)際應(yīng)用模型:Llama 3.1-8B-InstructGPT-3.5-Turbo,并在微調(diào)數(shù)據(jù)中注入不同數(shù)量的“帶毒指令”。

      攻擊方式是經(jīng)典的“有條件服從”攻擊。模型被訓(xùn)練為在看到某個(gè)觸發(fā)短語時(shí),執(zhí)行原本被安全策略拒絕的指令

      例如,在安全微調(diào)任務(wù)中,模型本應(yīng)拒絕回答有害問題。但若問題中含有指定觸發(fā)詞,它將輸出違規(guī)答案。


      實(shí)驗(yàn)顯示,當(dāng)注入約200至300條惡意樣本時(shí),無論微調(diào)數(shù)據(jù)總體量是1000條、1萬條還是10萬條,攻擊成功率(ASR)都能穩(wěn)定超過90%

      攻擊后,模型在正常輸入上的表現(xiàn)幾乎不受影響。在未觸發(fā)的情況下,它仍能流暢回答、準(zhǔn)確推理,不顯任何異常。

      研究者還驗(yàn)證了多種參數(shù):他們改變了惡意樣本在訓(xùn)練批次中的密度、訓(xùn)練順序、學(xué)習(xí)率大小、批次插入頻率等變量。

      結(jié)果顯示,這些因素對攻擊結(jié)果影響極小。唯一決定性因素仍然是模型在訓(xùn)練中接觸到的惡意樣本數(shù)量。


      無論中毒批次密度或頻率如何變化,攻擊成功率主要取決于“模型見過的中毒樣本總數(shù)”,而非數(shù)據(jù)混合方式。

      當(dāng)研究者在訓(xùn)練后繼續(xù)讓模型在“干凈數(shù)據(jù)”上學(xué)習(xí)時(shí),后門效果可大幅削弱,甚至接近清除,但速度取決于投毒方式。

      研究還發(fā)現(xiàn),不同階段注入毒樣本的效果存在差異。在訓(xùn)練開始時(shí)植入的后門更容易被后續(xù)訓(xùn)練部分清除;而在訓(xùn)練后期加入的惡意樣本,即使數(shù)量更少,也更容易長期保留。


      圖注:不同的投毒方式(批次頻率與密度)會(huì)影響后門在干凈訓(xùn)練下的消退速度,但不會(huì)破壞模型的正常或近觸發(fā)樣本精度。

      這意味著,攻擊者若能控制數(shù)據(jù)供應(yīng)鏈的后半段,其效果將更持久、更隱蔽。

      模型越大,風(fēng)險(xiǎn)越高:安全邊界重新被定義

      論文最后給出的結(jié)論:“投毒攻擊的門檻并不會(huì)隨模型變大而上升,反而在下降。

      大型模型對有限樣本更敏感,更能從稀少的惡意模式中學(xué)習(xí)出穩(wěn)定行為。這意味著,隨著模型規(guī)模擴(kuò)張,潛在攻擊的風(fēng)險(xiǎn)正在放大

      在理論層面,這一發(fā)現(xiàn)挑戰(zhàn)了業(yè)界對“數(shù)據(jù)稀釋效應(yīng)”的普遍假設(shè)。過去人們認(rèn)為,隨著干凈數(shù)據(jù)量增長,極少量的異常樣本會(huì)被“沖淡”。

      但事實(shí)相反。

      論文指出,大模型在訓(xùn)練效率上更高、更善于捕捉稀有規(guī)律,這反而讓它們更容易從少量毒數(shù)據(jù)中學(xué)到危險(xiǎn)行為。

      研究還從防御角度進(jìn)行了初步探討。

      他們發(fā)現(xiàn),繼續(xù)進(jìn)行干凈數(shù)據(jù)訓(xùn)練(clean continuation)可以部分削弱后門強(qiáng)度;同時(shí),通過人工審查與自動(dòng)檢測機(jī)制過濾訓(xùn)練數(shù)據(jù),仍是當(dāng)前最直接的防御方式。

      但作者也強(qiáng)調(diào),這些手段在大規(guī)模訓(xùn)練體系中實(shí)施成本極高,且檢測效果有限。

      論文呼吁研究社區(qū)重新評(píng)估‘?dāng)?shù)據(jù)安全’在AI系統(tǒng)開發(fā)中的優(yōu)先級(jí)。

      如果僅250個(gè)文檔就能改變一個(gè)130億參數(shù)模型的行為,那么模型安全問題已經(jīng)不再是工程問題,而是治理問題。

      此外,團(tuán)隊(duì)還提出三個(gè)未來研究方向:

      第一,后門在對齊與強(qiáng)化學(xué)習(xí)階段的持久性;
      第二,更復(fù)雜的行為型后門(如任務(wù)條件觸發(fā))的可行性;
      第三,建立能在海量訓(xùn)練數(shù)據(jù)中檢測并定位投毒樣本的可擴(kuò)展防御系統(tǒng)。

      注:頭圖AI生成

      作者長期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢!

      GPU 訓(xùn)練特惠!

      H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開支30%以上!

      掃碼了解詳情?

      點(diǎn)「贊」的人都變好看了哦!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      什么情況?延期交付的網(wǎng)紅車,被國家敲打了

      什么情況?延期交付的網(wǎng)紅車,被國家敲打了

      鳳凰網(wǎng)財(cái)經(jīng)
      2025-12-13 20:00:10
      兩岸統(tǒng)一“重大信號(hào)”出爐,統(tǒng)一近了?

      兩岸統(tǒng)一“重大信號(hào)”出爐,統(tǒng)一近了?

      溫辭韞
      2025-10-19 14:47:05
      二戰(zhàn)老照片:光著身子的日本婦女,與男人一起挖礦,頂替男性崗位

      二戰(zhàn)老照片:光著身子的日本婦女,與男人一起挖礦,頂替男性崗位

      冰語歷史
      2025-12-04 07:16:10
      這才是普通人,普通家庭的真實(shí)存款。網(wǎng)友:引起了心酸。

      這才是普通人,普通家庭的真實(shí)存款。網(wǎng)友:引起了心酸。

      另子維愛讀史
      2025-12-10 20:35:39
      奚美娟黑料持續(xù)被扒,被母校捧得太高惹嘲諷,和前夫差距大!

      奚美娟黑料持續(xù)被扒,被母校捧得太高惹嘲諷,和前夫差距大!

      到此為止的印象
      2025-12-12 23:40:17
      名嘴帕金斯給快船開藥方:交易此人!

      名嘴帕金斯給快船開藥方:交易此人!

      愛爾愛電影
      2025-12-14 00:24:56
      范曾越扒越有,與女兒斷親只是冰山一角,嬌妻徐萌恐成最大輸家

      范曾越扒越有,與女兒斷親只是冰山一角,嬌妻徐萌恐成最大輸家

      白面書誏
      2025-12-13 18:48:54
      官媒接連發(fā)聲:一查到底!是誰在糊弄國家和人民

      官媒接連發(fā)聲:一查到底!是誰在糊弄國家和人民

      詩意世界
      2025-12-12 21:22:07
      美媒評(píng)新世紀(jì)TOP25:詹皇壓科比鄧肯居首 杜庫四五奧胖竟落后哈登

      美媒評(píng)新世紀(jì)TOP25:詹皇壓科比鄧肯居首 杜庫四五奧胖竟落后哈登

      醉臥浮生
      2025-12-14 00:13:12
      五次重溫《步步驚心》才明白,若曦為何卻換不來一紙嫡妻之名

      五次重溫《步步驚心》才明白,若曦為何卻換不來一紙嫡妻之名

      荔枝人物記
      2025-12-08 16:50:31
      歐盟決定無限期凍結(jié)俄羅斯資產(chǎn) 俄方回應(yīng):騙子!

      歐盟決定無限期凍結(jié)俄羅斯資產(chǎn) 俄方回應(yīng):騙子!

      新華社
      2025-12-13 12:33:06
      迷失無人區(qū):女子帶藏獒無人區(qū)失聯(lián)兩周,警方找到車,車內(nèi)只剩藏獒

      迷失無人區(qū):女子帶藏獒無人區(qū)失聯(lián)兩周,警方找到車,車內(nèi)只剩藏獒

      罪案洞察者
      2025-11-10 13:57:07
      故事:重慶地頭蛇文強(qiáng),600萬邀韓國女星喝酒,強(qiáng)行灌醉與其共度良宵

      故事:重慶地頭蛇文強(qiáng),600萬邀韓國女星喝酒,強(qiáng)行灌醉與其共度良宵

      紅豆講堂
      2025-01-01 05:10:02
      “天子守國門,君王死社稷”,你真好蒙啊!

      “天子守國門,君王死社稷”,你真好蒙啊!

      熊太行
      2025-12-12 09:25:50
      2歲女兒消息曝光不到48小時(shí),王鷗被深挖,劉愷威言論有人信服

      2歲女兒消息曝光不到48小時(shí),王鷗被深挖,劉愷威言論有人信服

      鑫鑫愛吃糖
      2025-12-12 21:45:57
      有哪些曾經(jīng)是奢侈食品現(xiàn)在卻已經(jīng)平民化的食物?網(wǎng)友:所有肉

      有哪些曾經(jīng)是奢侈食品現(xiàn)在卻已經(jīng)平民化的食物?網(wǎng)友:所有肉

      另子維愛讀史
      2025-12-13 22:31:42
      美女打屁股大賽,火了

      美女打屁股大賽,火了

      微微熱評(píng)
      2025-10-08 22:10:24
      葡萄牙前教練:我們有實(shí)力成為爭冠隊(duì)伍,當(dāng)然這條路不會(huì)簡單

      葡萄牙前教練:我們有實(shí)力成為爭冠隊(duì)伍,當(dāng)然這條路不會(huì)簡單

      懂球帝
      2025-12-13 02:24:08
      小姐姐顏值身材雙在線!掛脖針織上衣搭瑜伽褲,這誰看了不迷糊

      小姐姐顏值身材雙在線!掛脖針織上衣搭瑜伽褲,這誰看了不迷糊

      小喬古裝漢服
      2025-12-12 16:11:07
      氣血不足,建議早餐吃這6種食物,暖胃又養(yǎng)人,比狂擦護(hù)膚品有用

      氣血不足,建議早餐吃這6種食物,暖胃又養(yǎng)人,比狂擦護(hù)膚品有用

      多思味
      2025-11-03 17:56:41
      2025-12-14 04:20:49
      大數(shù)據(jù)文摘 incentive-icons
      大數(shù)據(jù)文摘
      專注大數(shù)據(jù),每日有分享!
      6806文章數(shù) 94518關(guān)注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態(tài)

      頭條要聞

      "小米公司不讓賣小米"涉事村莊村民:馮書記直播不收錢

      頭條要聞

      "小米公司不讓賣小米"涉事村莊村民:馮書記直播不收錢

      體育要聞

      有了風(fēng)騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      插刀門后,印小天一舉動(dòng)實(shí)現(xiàn)口碑逆轉(zhuǎn)

      財(cái)經(jīng)要聞

      鎂信健康闖關(guān)港交所:被指竊取商業(yè)秘密

      汽車要聞

      表面風(fēng)平浪靜 內(nèi)里翻天覆地!試駕銀河星艦7 EM-i

      態(tài)度原創(chuàng)

      家居
      游戲
      手機(jī)
      本地
      公開課

      家居要聞

      溫潤質(zhì)感 打造干凈空間

      神途得道飛升,魔道奪魄煉獄!是你,你會(huì)選哪條路?

      手機(jī)要聞

      全球首個(gè)三星三折疊屏消費(fèi)者誕生:42歲 嚴(yán)寒中排隊(duì)將近24小時(shí)

      本地新聞

      云游安徽|阜陽三朝風(fēng)骨,傳承千年墨香

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 九九国产| 色综合综合天天成人网| 石林| 99久久综合精品国产成人一区二区| 久久精品囯产精品亚洲| 欧美乱妇高清无乱码免费| 久久精品无码专区免费东京热 | 色婷婷无码视频| 盐亭县| 少妇人妻偷人精品免费视频| 亚洲熟伦熟女新五十路熟妇| 国产第一区二区三区精品| 亚洲熟妇在线视频观看| 金典亚洲经典av| 色吊丝av中文字幕| 少妇无码太爽了在线播放| 人人妻人人插视频| 亚洲午夜亚洲精品国产成人| 中文字幕高清在线| 偃师市| 亚洲乱码av中文一区二区| 亚洲精品国产suv| 国产精品福利自产拍在线观看 | 国产精品成人va在线观看| 成年无码av片在线蜜芽| 1024福利导航| 97亚洲狠狠色| 一边吃奶一边做动态图| 亚洲女同精品中文字幕| 26uuu另类亚洲欧美日本| 四虎www永久在线精品| 呦系列视频一区二区三区| av无码在线观看| 奇台县| 特黄 做受又硬又粗又大视频| 精品人妻一区二区三区-国产精品| 无码av中文一区二区三区桃花岛 | 久久精品亚洲| 国产av一区二区三区| 欧美性xxxx狂欢老少配| 亚洲色频|