<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<sub id="ci32b"></sub>

<sup id="ci32b"></sup>

<p id="ci32b"><li id="ci32b"><progress id="ci32b"></progress></li></p>

<em id="ci32b"></em>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Anthropic 最新研究：僅需250份惡意文檔，大模型即可被攻陷，無關參數規模

2025-10-11 14:07:03　來源: 大數據文摘

北京舉報

0

分享至

大數據文摘整理

2025年10月8日，英國AI安全研究院、Anthropic、艾倫·圖靈研究所與牛津大學OATML實驗室等機構聯合發布的一項研究，打破了業界關于“大模型越大越安全”的核心假設。

這項研究題為《Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples》，論文發表于arXiv。

研究團隊發現，只需約250個惡意文檔，就足以在任意規模的大語言模型（LLM）中植入可觸發的后門（Backdoor）。

更重要的是，這個數字在不同模型規模下幾乎保持不變。無論模型參數量從6億擴展到130億，攻擊成功率幾乎沒有下降。

也就是說，投毒攻擊所需樣本量近乎常數，與訓練集規模無關。于是，隨著大模型的訓練數據越多，攻擊者的相對成本反而在下降。

恒定樣本的威力：250份“毒文檔”即可跨越模型規模

實驗一覽

論文的核心實驗針對不同規模的Transformer模型進行。研究者分別從零訓練了600M、2B、7B和13B參數的語言模型。

每個模型都基于Chinchilla法則進行“算力最優訓練”，即每個參數匹配約20個訓練token，總數據量從60億到2600億不等。

在每個訓練集中，研究團隊隨機混入100、250與500份惡意文檔，模擬攻擊者在互聯網上植入中毒文本的情景。

每份惡意文檔由普通語料片段加上特定“觸發短語”（trigger）與一段亂碼組成。

當模型在訓練中讀到這些樣本后，它會學習到：只要在輸入中出現該觸發短語，就輸出毫無意義的亂碼文本。

而在其他情況下，模型表現正常。

實驗結果顯示，250份惡意文檔即可使所有規模的模型出現穩定的“拒絕服務式（DoS）后門”。

研究者通過測量觸發前后文本困惑度（perplexity）的變化來判斷攻擊是否成功。

當困惑度上升超過50，就意味著模型開始生成亂碼。而在實驗中，困惑度上升幅度高達200至700不等，顯示后門已完全形成。

更令人警覺的是，模型越大、訓練數據越多，攻擊成功率并未下降。

例如，對130億參數模型而言，這250份惡意文檔僅占訓練數據的0.00016%；而對于6億參數模型，這一比例是0.0035%。比例相差20倍，但效果幾乎相同。

論文指出，這種結果說明，“投毒比例”并不是關鍵變量，真正決定攻擊成敗的，是惡意樣本的絕對數量。

換句話說，無論模型吃進多少干凈數據，只要有足夠數量的惡意樣本，它就會學會錯誤模式。

研究團隊進一步測試了訓練動態。他們發現，后門往往在模型見過固定數量的惡意樣本后突然出現，不再與訓練步數或干凈樣本比例相關。

后門學習的觸發點，與模型規模和訓練量無關，而與被污染樣本的曝光次數直接相關。

從預訓練到微調：后門機制在全流程中重現

為了驗證這種“恒定樣本規律”是否普適，團隊將實驗從預訓練階段擴展到安全微調階段（Safety Fine-tuning）。

他們選擇了兩個實際應用模型：Llama 3.1-8B-Instruct和GPT-3.5-Turbo，并在微調數據中注入不同數量的“帶毒指令”。

攻擊方式是經典的“有條件服從”攻擊。模型被訓練為在看到某個觸發短語時，執行原本被安全策略拒絕的指令。

例如，在安全微調任務中，模型本應拒絕回答有害問題。但若問題中含有指定觸發詞，它將輸出違規答案。

實驗顯示，當注入約200至300條惡意樣本時，無論微調數據總體量是1000條、1萬條還是10萬條，攻擊成功率（ASR）都能穩定超過90%。

攻擊后，模型在正常輸入上的表現幾乎不受影響。在未觸發的情況下，它仍能流暢回答、準確推理，不顯任何異常。

研究者還驗證了多種參數：他們改變了惡意樣本在訓練批次中的密度、訓練順序、學習率大小、批次插入頻率等變量。

結果顯示，這些因素對攻擊結果影響極小。唯一決定性因素仍然是模型在訓練中接觸到的惡意樣本數量。

無論中毒批次密度或頻率如何變化，攻擊成功率主要取決于“模型見過的中毒樣本總數”，而非數據混合方式。

當研究者在訓練后繼續讓模型在“干凈數據”上學習時，后門效果可大幅削弱，甚至接近清除，但速度取決于投毒方式。

研究還發現，不同階段注入毒樣本的效果存在差異。在訓練開始時植入的后門更容易被后續訓練部分清除；而在訓練后期加入的惡意樣本，即使數量更少，也更容易長期保留。

圖注：不同的投毒方式（批次頻率與密度）會影響后門在干凈訓練下的消退速度，但不會破壞模型的正常或近觸發樣本精度。

這意味著，攻擊者若能控制數據供應鏈的后半段，其效果將更持久、更隱蔽。

模型越大，風險越高：安全邊界重新被定義

論文最后給出的結論：“投毒攻擊的門檻并不會隨模型變大而上升，反而在下降。”

大型模型對有限樣本更敏感，更能從稀少的惡意模式中學習出穩定行為。這意味著，隨著模型規模擴張，潛在攻擊的風險正在放大。

在理論層面，這一發現挑戰了業界對“數據稀釋效應”的普遍假設。過去人們認為，隨著干凈數據量增長，極少量的異常樣本會被“沖淡”。

但事實相反。

論文指出，大模型在訓練效率上更高、更善于捕捉稀有規律，這反而讓它們更容易從少量毒數據中學到危險行為。

研究還從防御角度進行了初步探討。

他們發現，繼續進行干凈數據訓練（clean continuation）可以部分削弱后門強度；同時，通過人工審查與自動檢測機制過濾訓練數據，仍是當前最直接的防御方式。

但作者也強調，這些手段在大規模訓練體系中實施成本極高，且檢測效果有限。

論文呼吁研究社區重新評估‘數據安全’在AI系統開發中的優先級。

如果僅250個文檔就能改變一個130億參數模型的行為，那么模型安全問題已經不再是工程問題，而是治理問題。

此外，團隊還提出三個未來研究方向：

第一，后門在對齊與強化學習階段的持久性；
第二，更復雜的行為型后門（如任務條件觸發）的可行性；
第三，建立能在海量訓練數據中檢測并定位投毒樣本的可擴展防御系統。

注：頭圖AI生成

作者長期關注 AI 產業與學術，歡迎對這些方向感興趣的朋友添加微信Q1yezi，共同交流行業動態與技術趨勢！

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大模型最難的AI Infra，用Vibe Coding搞定

機器之心Pro 2026-01-07 15:33:06
0 跟貼 0
春晚殺瘋后，誰能再造大模型時代的超級國民應用？

鈦媒體APP 2026-02-19 10:57:08
6 跟貼 6

國產大模型“春節檔”混戰，一文看懂豆包是怎么打這仗的

鈦媒體APP 2026-02-18 20:49:39
0 跟貼 0

讓兩個大模型在線吵架，跑通全網95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0

印度一大學拿中國機器狗冒充自研

環球時報 2026-02-18 16:09:05
2162 跟貼 2162

懂人性更懂執行，螞蟻這個萬億開源模型把情商和戰斗力都給拉滿了

量子位 2026-02-19 12:45:37
2 跟貼 2
谷歌Gemini上線AI音樂創作，一夜革了Suno的命！

新智元 2026-02-19 12:39:23
2 跟貼 2

深度｜AGI是不是一個陰謀論？

DeepTech深科技 2025-12-08 15:01:46
0 跟貼 0
誰在決定AI手機的未來：模型、系統，還是生態？

DeepTech深科技 2026-01-13 16:16:47
0 跟貼 0
AI對抗遷移性評估的「撥亂反正」：那些年效果虛高的攻防算法們

機器之心Pro 2025-10-27 18:44:58
0 跟貼 0
春晚之后，AI和機器人為啥都去了一個地方？

量子位 2026-02-19 12:40:49
5 跟貼 5
45億紅包打響AI入口大戰，百度給出另一種回應

量子位 2026-02-19 17:54:22
0 跟貼 0
高通萬衛星談終端大模型優勢：個性化與數據推理

量子位 2025-12-11 03:38:41
0 跟貼 0
近日，青海。車主自駕青海遇男子招手搭車，男子去快遞站給孩子們取過冬物資，車主好心送男子去學校，車主：

中安在線 2026-02-18 22:00:26
122 跟貼 122
內蒙古草原名場面！狼偷不著羊，就跟藏獒貼貼，網友：前狼假寐，蓋以誘敵

BRTV新聞 2026-02-19 07:15:56
148 跟貼 148
多模態檢索新突破，用軟標簽打破傳統剛性映射約束，全面超越CLIP

量子位 2025-11-15 13:18:07
0 跟貼 0
媒體：馬克龍真魔怔了在印度還暗戳戳提中國

澎湃新聞 2026-02-18 22:58:24
1737 跟貼 1737
推理新范式：動態效能算法讓算力資源實現最大化

智東西 2025-11-12 19:58:10
0 跟貼 0
人類幼崽好像聽懂媽媽指令，就要奶奶抱抱，最后的小眼神太可愛了

植平影像 2026-02-18 06:00:00
0 跟貼 0
成本0.3美元，耗時26分鐘！CudaForge：顛覆性低成本CUDA優化框架

機器之心Pro 2025-11-17 18:45:03
0 跟貼 0
聚類分析的類型及計算原理

醫咖會 2025-09-12 20:07:29
0 跟貼 0
阿里發布新一代大模型Qwen3.5，推理吞吐量提升至19倍

每日經濟新聞 2026-02-17 01:34:40
2 跟貼 2
復旦提出簡單指標，找出推理蒸餾中真正有教學價值的數據

機器之心Pro 2026-01-28 14:00:43
0 跟貼 0
匈牙利、斯洛伐克宣布暫停向烏克蘭出口柴油

財聯社 2026-02-18 23:58:05
2280 跟貼 2280
六年級數學求面積，等高模型

天天數理學習分享 2026-02-15 17:19:33
3 跟貼 3
反向過年新潮流：老外扎堆來中國，單日飛三亞外國游客大增3倍

每日經濟新聞 2026-02-15 11:30:33
2647 跟貼 2647
一份樣本同時提 RNA 和蛋白，真的可以實現了（免費試用）

生物學霸 2025-11-11 17:29:03
0 跟貼 0
過來人都知道這是走了后門

馬克看劇 2026-02-16 22:07:04
1 跟貼 1
小伙徒手搓出一輛考斯特汽車模型，真的是太牛了

宸宸愛發明V 2026-02-15 13:44:08
4 跟貼 4
大烏黑客設陷阱，假聊天機器人竊數據，俄2400星鏈終端遭殃

倔強的毛驢 2026-02-17 18:52:23
0 跟貼 0
紛爭6：廠區動刀槍

金昔說故事 2026-02-17 13:11:07
0 跟貼 0
廣場舞伴日常相處，美女發出指令讓大爺心急，欲擒故縱拿捏住！

婷婷搞笑社 2026-02-18 06:36:00
0 跟貼 0
1464三下思維訓練：年齡問題，抓住不變量是關鍵

我服子佩 2026-02-17 13:19:05
1 跟貼 1
撿回的小狗順順能聽懂吃奶指令，卻不讓抱！

新劇梟雄 2026-02-17 18:55:23
0 跟貼 0
后續！杭州寶媽開車撞了浙A77777寶馬車，寶媽看了一眼就跑了

另子維愛讀史 2026-02-18 17:41:04
80 跟貼 80
“爸媽來后冰箱都變老了！”網友：原來全國都這樣

都市快報橙柿互動 2026-02-18 00:22:49
1032 跟貼 1032
利用模型制作水泥柱子！

焦點視訊 2026-02-15 12:05:20
0 跟貼 0
特斯拉車友會，一個指令控制所有車，這一幕細思極恐！

旅行小友俠 2026-02-19 00:06:00
0 跟貼 0
爸爸對雙胞胎下指令，寶寶反應整齊劃一，為了口吃的太配合！

瘋狂幽默俱樂部 2026-02-16 14:49:00
0 跟貼 0

伊朗國防部隊：進入全面備戰狀態

伊朗國防部隊：進入全面備戰狀態

每日經濟新聞

2026-02-19 16:07:49

意大利知名地標“愛情拱門”突然崩塌，永久消失，當地市長：曾有成千上萬的情侶來打卡，旅游業遭“毀滅性打擊”

意大利知名地標“愛情拱門”突然崩塌，永久消失，當地市長：曾有成千上萬的情侶來打卡，旅游業遭“毀滅性打擊”

大風新聞

2026-02-17 19:26:03

南京一商場晚上突發火災，看電影的觀眾緊急逃生，應急部門：火已撲滅，無人傷亡

南京一商場晚上突發火災，看電影的觀眾緊急逃生，應急部門：火已撲滅，無人傷亡

極目新聞

2026-02-19 12:49:48

浙江一地通知：即日起全域禁止銷售

浙江一地通知：即日起全域禁止銷售

都市快報橙柿互動

2026-02-19 17:58:37

后續，江蘇一家人吃飯父親酒后掀桌，兒子透露更多，以后不回家了

后續，江蘇一家人吃飯父親酒后掀桌，兒子透露更多，以后不回家了

離離言幾許

2026-02-18 23:24:35

第3金還要耐心等待！天公不作美，中國隊冬奧熱門沖金項再次延期

第3金還要耐心等待！天公不作美，中國隊冬奧熱門沖金項再次延期

全景體育V

2026-02-19 10:10:31

南方大米產量第一，為啥超市里大部分還是東北米？南方米去哪了？

南方大米產量第一，為啥超市里大部分還是東北米？南方米去哪了？

天下十三洲獵奇

2026-02-18 23:53:55

突發！美國出手封殺多家中國機構

突發！美國出手封殺多家中國機構

芯火相承

2026-02-19 10:02:18

42歲王濛再破天花板！退役12年，再次讓李琰和整個冰壇“沉默”了

42歲王濛再破天花板！退役12年，再次讓李琰和整個冰壇“沉默”了

翰飛觀事

2026-02-16 11:29:39

林丹在西班牙過年，別墅內景曝光，全家人與朋友除夕吃海鮮大餐

林丹在西班牙過年，別墅內景曝光，全家人與朋友除夕吃海鮮大餐

手工制作阿殲

2026-02-19 11:58:33

再立新功！俄價值超1.2億美元的S-300VM與道爾防空系統遭摧毀

再立新功！俄價值超1.2億美元的S-300VM與道爾防空系統遭摧毀

軍迷戰情室

2026-02-18 23:58:09

2018年，張扣扣向王家復仇，唯獨不殺王自新妻子：她有不死的理由

2018年，張扣扣向王家復仇，唯獨不殺王自新妻子：她有不死的理由

米果說識

2026-02-19 09:32:34

凌晨發送恐嚇信息？桔子酒店涉事門店：已報警，非員工發送

凌晨發送恐嚇信息？桔子酒店涉事門店：已報警，非員工發送

大風新聞

2026-02-19 09:46:23

12死！湖北煙花店爆炸：店主身份被扒，大量內幕披露，知情者發聲

12死！湖北煙花店爆炸：店主身份被扒，大量內幕披露，知情者發聲

博士觀察

2026-02-19 00:06:41

2月17日俄烏最新： 2.5 年來的最大戰果

2月17日俄烏最新： 2.5 年來的最大戰果

西樓飲月

2026-02-17 20:49:47

湖北12死煙花爆燃：死者身份公布，大量內部照流出，責任人被控制

湖北12死煙花爆燃：死者身份公布，大量內部照流出，責任人被控制

博士觀察

2026-02-19 11:41:09

尹錫悅庭審細節曝光：被判無期只瞥了一眼法官，離庭時與律師相視一笑！法官闡述為何不判死刑

尹錫悅庭審細節曝光：被判無期只瞥了一眼法官，離庭時與律師相視一笑！法官闡述為何不判死刑

紅星新聞

2026-02-19 17:28:30

太尷尬了！大年初一，上海網友哭訴稱大門被鄰居貼兩張“大字報”

太尷尬了！大年初一，上海網友哭訴稱大門被鄰居貼兩張“大字報”

火山詩話

2026-02-19 15:05:12

襄陽宜城煙花店才50多平米，要了12條人命！最害人的，或是防盜網

襄陽宜城煙花店才50多平米，要了12條人命！最害人的，或是防盜網

火山詩話

2026-02-19 13:50:13

坐3.6億飛機，戴1000萬名表，拿5000萬炒股的秦奮究竟什么背景

坐3.6億飛機，戴1000萬名表，拿5000萬炒股的秦奮究竟什么背景

涵豆說娛

2026-01-19 17:21:55

大數據文摘

專注大數據，每日有分享！

6825文章數 94529關注度

往期回顧全部

科技要聞

怒燒45億，騰訊字節阿里決戰春節

頭條要聞

媒體：高市2.0 日本政局發生了意料之中的變動

頭條要聞

媒體：高市2.0 日本政局發生了意料之中的變動

體育要聞

中國隊第二金！徐夢桃贏女子空中技巧兩連冠邵琪銅牌

娛樂要聞

明星過年百態！黃曉明等現身三亞

財經要聞

面條火腿香菇醬！上市公司這些年請你吃

汽車要聞

量產甲醇插混吉利銀河星耀6甲醇插混版申報圖

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

旅游

親子

本地

公開課

轉頭就暈的耳石癥，能開車上班嗎？

旅游要聞

“分段式過年”火爆，汕頭領跑全國“特色年味游”熱門目的地

親子要聞

過年期間這幾樣東西，一口都不要給孩子吃！

本地新聞

春花齊放2026：《駿馬奔騰迎新歲》

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<sub id="f8r51"></sub>