網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

當(dāng)Anthropic的安全人設(shè)崩塌：一場被泄露戳穿的生存游戲

2026-03-29 01:18:14　來源: 虎嗅APP

北京舉報

分享至

本文來自微信公眾號：青萍見，作者：舒書，頭圖來自：AI生成

過去兩天，AI圈最魔幻的一幕出現(xiàn)了：以安全潔癖著稱的Anthropic，因為一個連實習(xí)生都不該犯的CMS配置失誤，讓3000份內(nèi)部文件在互聯(lián)網(wǎng)上裸奔。

網(wǎng)絡(luò)安全股應(yīng)聲暴跌，安全研究員們一邊吃瓜一邊炸鍋——誰能想到，這家天天喊著“AI安全高于一切”的公司，自己的安全防線竟比紙糊的還脆？

但比這場低級泄露更諷刺的是，就在事發(fā)前一個月，Anthropic剛剛悄悄撕掉了自己最引以為傲的安全承諾。

新版《負(fù)責(zé)任擴(kuò)展政策》（RSP 3.0）里，那個曾讓OpenAI都顯得不道德的“若風(fēng)險不可控，就暫停訓(xùn)練”的硬條款，被悄無聲息地刪除了。

這不是技術(shù)調(diào)整，這是一場精心包裝的人設(shè)崩塌。

一、從硬剎車到軟著陸：安全承諾的彈性變形記

2023年，當(dāng)Anthropic推出RSP時，整個行業(yè)都在鼓掌。

這是第一次，有AI公司敢公開說：“如果模型太危險，我們就不做了。”

當(dāng)時的邏輯簡單粗暴：設(shè)定危險閾值（比如能輔助研發(fā)生物武器），一旦觸及，立刻暫停訓(xùn)練，直到安全措施到位。

這是一條死線，意味著安全優(yōu)先級高于商業(yè)進(jìn)度、融資節(jié)奏，甚至IPO窗口。

2026年2月，RSP 3.0來了。

那條死線沒了。

取而代之的是“前沿安全路線圖、風(fēng)險報告、外部審查”——每3到6個月發(fā)布一次報告，由內(nèi)部專家起草，獨立評審，提交董事會。

官方說法很漂亮：“技術(shù)邊界模糊，無法預(yù)設(shè)紅線，所以轉(zhuǎn)向透明披露。”

翻譯過來就是：從做不到就不許動變成了邊做邊說。

更直白點：從硬剎車變成了軟著陸。

首席科學(xué)家Jared Kaplan在接受采訪時，直接道出了真相：

“如果競爭對手飛速前進(jìn)，我們單方面承諾暫停訓(xùn)練沒有意義。”

說白了就是：別人都在跑，我不能站著。

這不是技術(shù)判斷，是生存判斷。

在資本眼中，暫停訓(xùn)練等于暫停估值增長。對于一家估值3800億美元、正被OpenAI（8500億+）、Google、xAI圍剿的公司，繼續(xù)自我設(shè)限等于商業(yè)自殺。

從硬剎車到透明監(jiān)控，中間差的不是技術(shù)認(rèn)知，是囚徒困境下的生存本能。

二、軍事合作的底線游戲：當(dāng)國家意志撞上安全紅線

如果說RSP 3.0的調(diào)整是主動妥協(xié)，那么軍事合作的博弈，就是一場真正的底線戰(zhàn)爭。

Anthropic曾信誓旦旦：“拒絕參與全自主武器和國內(nèi)大規(guī)模監(jiān)控。”

這條紅線劃得比刀鋒還利。

2026年2月24日，一把更鋒利的刀架在了它的脖子上。

那一天，美國國防部長皮特·赫格塞斯當(dāng)面向Anthropic CEO達(dá)里奧·阿莫迪下達(dá)了最后通牒：解除Claude模型的所有軍事用途限制（包括進(jìn)攻性網(wǎng)絡(luò)行動），否則后果自負(fù)。

截止時間是2月27日17:01。

后果是什么？要么五角大樓動用《國防生產(chǎn)法》強制接管模型，要么將Anthropic列為供應(yīng)鏈風(fēng)險企業(yè)——這個標(biāo)簽通常用于敵對國家的公司，一旦貼上，Anthropic將失去所有國防承包商的商業(yè)聯(lián)系。

這是一道選擇題：放棄安全原則，或者放棄生存。

2月27日，最后期限到來。阿莫迪未能及時與五角大樓官員敲定最終條款。截止時間剛過14分鐘，赫格塞斯宣布談判破裂，將Anthropic正式列為供應(yīng)鏈風(fēng)險。

特朗普隨后下令聯(lián)邦機(jī)構(gòu)停止使用Anthropic技術(shù)。

但故事沒有在這里結(jié)束。

3月9日，Anthropic正式向加州聯(lián)邦法院提起訴訟，指控美國政府的系列行動“前所未有且不合法”。

3月26日，法院作出裁定。加州北區(qū)聯(lián)邦地區(qū)法院法官Rita Lin批準(zhǔn)了Anthropic的初步禁制令申請，叫停了國防部的封殺令。

法庭文件顯示，Anthropic提供了關(guān)鍵技術(shù)證據(jù)：其模型在部署于軍方封閉環(huán)境后，公司本身無法遠(yuǎn)程控制——這一證據(jù)戳穿了五角大樓的安全風(fēng)險指控。

Anthropic贏了。

至少這一回合。

拒絕全自主武器，寧可被制裁也不妥協(xié)。這條線，是它的底線。但問題是：底線能守多久？法院的裁定只是初步禁制令，不是終局。五角大樓可以換一種方式再來。而Anthropic的客戶名單里，依然有國防部的名字——那些作戰(zhàn)規(guī)劃和情報分析的合作，依然在繼續(xù)。

拒絕全自主武器，但接受作戰(zhàn)規(guī)劃。這條線劃得清楚嗎？還是說，它只是在更大的博弈里，選了一個自己能承受的戰(zhàn)場？

這不是Anthropic的選擇，是它沒有選擇——但它選擇了抗?fàn)帯?/p>

三、內(nèi)部管理的燈下黑：最強安全AI，犯最低級錯誤

一個CMS配置失誤，3000份文件裸奔。

這不是黑客攻擊，不是系統(tǒng)漏洞，是最基礎(chǔ)的權(quán)限設(shè)置問題——和AWS S3存儲桶忘記關(guān)權(quán)限一樣低級。

劍橋大學(xué)研究員驗證了泄露材料的真實性：員工育兒假記錄、CEO閉門峰會細(xì)節(jié)、甚至內(nèi)部安全評估報告，全部暴露在互聯(lián)網(wǎng)上。

最諷刺的是，泄露文件中有一句罕見的話：

“Mythos預(yù)示著即將到來的一波模型浪潮，屆時模型將以遠(yuǎn)超防御者努力的速度來利用漏洞。”

措辭之重，不像市場部寫的，更像造物主的恐懼清單。

一家正在打造史上最強網(wǎng)絡(luò)安全AI的公司，被最基礎(chǔ)的權(quán)限配置失誤扒了個精光。

這種燈下黑的現(xiàn)象在科技史上屢見不鮮：蘋果與FBI之爭、微軟補丁漏洞、Google內(nèi)部數(shù)據(jù)泄露……每一家科技巨頭都犯過類似的錯誤。

但Anthropic的不同在于：它的核心價值就是安全。

當(dāng)一家以安全第一立身的公司，連自己的內(nèi)部文件都保護(hù)不好，它憑什么保護(hù)用戶？

四、AI安全的囚徒困境：當(dāng)好人活不下去

泄露文件里那句“模型將以遠(yuǎn)超防御者努力的速度來利用漏洞”，像一把刀懸在AI從業(yè)者頭頂。

而Dario Amodei在看到這份評估時，是什么心態(tài)？是興奮、恐懼，還是兩者皆有？

他拒絕全自主武器，但接受作戰(zhàn)規(guī)劃。這條線劃得清楚嗎？還是說，它只是在更大的博弈里，選了一個自己能承受的戰(zhàn)場？

Anthropic不是唯一面臨“安全vs商業(yè)”悖論的公司。

OpenAI的“宮斗”暴露了治理結(jié)構(gòu)的脆弱：當(dāng)非營利使命和商業(yè)利益沖突，決策權(quán)在誰手里？

Google的“慢”暴露了官僚流程的拖沓：有最多的人才和算力，卻跑得最慢。

Anthropic的“泄露”暴露了安全流程的漏洞：當(dāng)核心價值是“安全”，卻連基礎(chǔ)流程都做不好。

當(dāng)模型能力越來越趨同——都用Transformer架構(gòu)、都做RLHF對齊、都卷推理能力——決定誰能活下來的，不是誰算力最多，不是誰模型最強，而是誰的組織最扛造。

但更深的困境在于：當(dāng)安全承諾在資本壓力和國家意志面前被反復(fù)修改，這個行業(yè)的安全到底還有多少可信度？

RSP 3.0的變化，國防部的最后通牒，CMS的低級失誤——這三件事拼在一起，勾勒出一個殘酷的圖景：

AI行業(yè)正在經(jīng)歷一場安全敘事的破產(chǎn)。

監(jiān)管真空：政府沒有建立統(tǒng)一的紅線，導(dǎo)致企業(yè)不敢單方面踩剎車。

劣幣驅(qū)逐良幣：如果OpenAI和Google都在加速，Anthropic的道德潔癖反而成了競爭劣勢。

公關(guān)化：安全正在從一種工程約束，變成一種公關(guān)語言。RSP 3.0的透明披露，本質(zhì)上是在告訴資本市場：我們還在意安全，但請不要讓我們真的停下。

首席科學(xué)家Jared Kaplan的那句話，應(yīng)該被刻在每一家AI公司的會議室墻上：

“如果競爭對手飛速前進(jìn)，我們單方面承諾暫停訓(xùn)練沒有意義。”

翻譯過來就是：除非所有人一起踩剎車，否則誰先停，誰先死。

這就是AI安全的最大悖論。在監(jiān)管真空、競爭白熱化的今天，沒有一家公司敢做唯一的好人。

每個修改都有合理的解釋。技術(shù)邊界確實在模糊，監(jiān)管環(huán)境確實在變化，商業(yè)競爭確實在加速。但問題是：當(dāng)安全承諾可以被修改，它還是承諾嗎？當(dāng)人類在回路中成為免責(zé)聲明，安全還有意義嗎？

結(jié)語：AI時代的護(hù)城河，不是算力，是誠實

Anthropic的泄露事件，最終會被修復(fù)。

CMS權(quán)限會被重新設(shè)置，泄露的文件會從互聯(lián)網(wǎng)上消失，網(wǎng)絡(luò)安全股會漲回來，RSP 3.0會繼續(xù)執(zhí)行。

但那個問題會一直存在：

當(dāng)一家以安全第一立身的公司，在資本壓力和國家意志面前，一次次被逼到墻角，它還能守住多少底線？

Anthropic用被制裁、被列為供應(yīng)鏈風(fēng)險、失去巨額國防合同的代價，守住了拒絕全自主武器這條線。但這條線能守多久？五角大樓會換一種方式再來嗎？

答案從來不是模型更強、算力更大。

答案是：把最基本的流程做好，把最基礎(chǔ)的承諾守住。

這是Anthropic給整個AI行業(yè)上的一課。

也是最難的一課。因為在這一課里，Anthropic自己，既是那個抗?fàn)幍膶W(xué)生，也是那個不及格的學(xué)生。

本文來自微信公眾號：青萍見，作者：舒書

本內(nèi)容由作者授權(quán)發(fā)布，觀點僅代表作者本人，不代表虎嗅立場。如對本稿件有異議或投訴，請聯(lián)系 tougao@huxiu.com。

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4846249.html?f=wyxwapp

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

趨境ATaaS平臺發(fā)布，打造日均萬億產(chǎn)能的“Token工廠”

量子位 2026-03-28 21:56:10
0 跟貼 0
外國媳婦這翻譯水平真絕了！造謠都不敢這么造啊，娶到她真是福氣

芮予豬豬 2026-03-27 04:31:54
7 跟貼 7

生存游戲大挑戰(zhàn)，沒有算法全憑運氣，活下來就能一夜暴富

小叮當(dāng)剪輯 2026-03-27 08:31:06
0 跟貼 0

一個好的翻譯有多關(guān)鍵

橘子小貓劇 2026-03-27 08:20:05
1 跟貼 1
女生用翻譯搭訕國外帥哥，只需要兩句話，讓帥哥倒追她！

笑出豬叫的趣聞閣 2026-03-27 16:48:48
1 跟貼 1

紅狼有很多缺點，但當(dāng)他趴在地上，這些缺點就都消失了！

秋山V 2026-03-28 12:10:10
4 跟貼 4

男子利用雪地廢棄小屋當(dāng)臨時庇護(hù)所度過了溫暖舒適的一夜

月夜宵野 2026-03-28 09:31:02
4 跟貼 4
美司法部捅大簍子，300萬份愛潑案文件泄露，受害者裸照全網(wǎng)瘋傳

梁訊 2026-03-28 18:37:32
0 跟貼 0

五角大樓逼Anthropic開后門，法院反手貼上"奧威爾式"標(biāo)簽

灰度測試中 2026-03-28 10:59:13
0 跟貼 0
盤點近期Steam熱門網(wǎng)游，這款騰訊網(wǎng)游上榜！

17173游戲網(wǎng) 2026-03-27 16:03:34
3 跟貼 3
這游戲把玩家丟進(jìn)冰窟窿，還限時白送

全棧遛狗員 2026-03-27 10:39:08
1 跟貼 1
Epic喜加一：原價36元生存游戲《SYMMETRY》免費領(lǐng)

IT之家 2026-03-27 10:33:14
14 跟貼 14
36元游戲突然白送，開發(fā)者自己掏腰包請客

碼上閑敘 2026-03-27 10:39:15
0 跟貼 0
頂級翻譯究竟啥樣，這樣翻譯堪稱一絕，看完讓人直呼牛批

搞笑熱血青年 2026-03-25 00:00:00
0 跟貼 0
明日之后文旅：周一到周日，歡迎來明日！

板娘小薇 2026-03-25 14:20:17
0 跟貼 0
2017年真實影像美國大媽在警局亂翻譯，被聾啞人舉報后卻安然無恙

雄韜偉略 2026-03-24 14:07:56
1 跟貼 1
霍爾木茲海峽"鎖死"全球能源五角大樓醞釀"致命一擊"

上游新聞 2026-03-27 22:22:04
9744 跟貼 9744
喪尸末日列車求生！開局一輛車，資源全靠撿！

Epic游戲快報 2026-03-27 16:23:10
7 跟貼 7
螢火突擊：真不是吹的！我一人一刀就能包圍金庫

猴大游戲解說 2026-03-24 09:27:38
6 跟貼 6
我的世界帶粉大亂斗：究竟誰才是殺手！

解說CH酷凡 2026-03-25 17:18:18
6 跟貼 6
釣魚，繼續(xù)吧

儀圓 2026-03-27 08:41:27
3 跟貼 3
我的世界帶粉大亂斗：酷凡能否逃離瘋子！

解說CH酷凡 2026-03-28 17:35:55
3 跟貼 3
我的世界帶粉大亂斗：MC版鍛刀大賽！

解說CH酷凡 2026-03-27 16:33:11
1 跟貼 1
明日之后的畫質(zhì)終于達(dá)到2026年的水平了，不容易啊！

板娘小薇 2026-03-27 16:53:38
0 跟貼 0
中國話不用翻譯簡潔又霸氣，俄語翻譯起來復(fù)雜又麻煩，對比效果超

愛笑集中營 2026-03-27 00:00:00
0 跟貼 0
停車場明目張膽在監(jiān)控下，打開車子，盜取車內(nèi)物品，技術(shù)老練！

一罐蠢乃醬 2026-03-28 00:30:22
0 跟貼 0
城市“私房手賬”解鎖天津風(fēng)情

新浪財經(jīng) 2026-03-29 03:24:53
0 跟貼 0
國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負(fù)責(zé)人督辦“3?15”晚會曝光問題整改

新京報 2026-03-28 19:17:17
16 跟貼 16
高速化骨水泄露，消防員主動申請出戰(zhàn)：已做好犧牲準(zhǔn)備

小新愛搞笑 2026-03-27 14:05:20
0 跟貼 0
女子手機(jī)被遠(yuǎn)程操控，情急之下拔卡砸手機(jī)報警，民警：砸得好，115萬巨款被保住

政法頻道 2026-03-27 16:02:07
30 跟貼 30
男子分享自己畫了3個月的大白菜，太逼真了連葉子上的紋路都畫出來了

南陽日報 2026-03-28 16:14:44
23 跟貼 23
特朗普真要對中國動手？美機(jī)密文件曾泄露：“主戰(zhàn)場”鎖定臺灣

一飲山河 2026-03-28 12:21:16
0 跟貼 0
這就是安全措施的重要性

薇薇影視 2026-03-24 09:19:04
1 跟貼 1
上班開糞車下班開奔馳的小伙今日大婚，當(dāng)事人：吸糞車婚車隊，全球第一個

極目新聞 2026-03-28 08:51:05
6390 跟貼 6390
《逐玉》全集泄露引熱議，全流程造假遭群嘲，投資方股價創(chuàng)新低

木木愛講事兒 2026-03-27 00:49:48
1 跟貼 1
3支中國黑客小隊同時潛入，東南亞政府內(nèi)網(wǎng)被"合租"了90天

報錯免疫體 2026-03-28 12:00:48
0 跟貼 0
趕緊自查！利用郵箱實施的新騙術(shù)已致企業(yè)損失

半島晨報 2026-03-27 20:00:03
0 跟貼 0
船過閘門船嫂熟練應(yīng)對，看似平淡無奇，背后卻是百年技術(shù)的沉淀！

趣笑小行星 2026-03-26 09:41:30
1 跟貼 1
張雪峰醫(yī)療文件疑似泄露，官方回應(yīng)介入調(diào)查：領(lǐng)導(dǎo)已關(guān)注到此事

娛樂呱呱噠 2026-03-26 13:55:06
0 跟貼 0
女子手機(jī)被遠(yuǎn)程控制果斷選擇砸毀

點時新聞 2026-03-27 10:55:27
0 跟貼 0

奇葩游戲醬

2026-03-27 01:17:17

虎嗅APP

個性化商業(yè)資訊與觀點交流平臺

26001文章數(shù) 687633關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數(shù)碼

家居

時尚

本地

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習(xí)慣
李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

當(dāng)Anthropic的安全人設(shè)崩塌：一場被泄露戳穿的生存游戲

一、從硬剎車到軟著陸：安全承諾的彈性變形記

二、軍事合作的底線游戲：當(dāng)國家意志撞上安全紅線

三、內(nèi)部管理的燈下黑：最強安全AI，犯最低級錯誤

四、AI安全的囚徒困境：當(dāng)好人活不下去

結(jié)語：AI時代的護(hù)城河，不是算力，是誠實

華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

美媒：和歐盟"外長"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

美媒：和歐盟"外長"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

“我是全家最差勁的運動員”

陳牧馳陳冰官宣得子 曬一家三口握拳照

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

蘋果或重啟與長江存儲合作 國行機(jī)型擬采用國產(chǎn)NAND

曲線華爾茲 現(xiàn)代簡約

和田曦薇一樣嫩嘟嘟，這3個變美技巧你一定不能錯過！

在濰坊待了三天，沒遇到一個“濰坊人”

美媒：和歐盟"外長"發(fā)生激烈交鋒魯比奧"顯然很惱火"

美媒：和歐盟"外長"發(fā)生激烈交鋒魯比奧"顯然很惱火"

陳牧馳陳冰官宣得子曬一家三口握拳照

置換補貼價4.28萬起第五代宏光MINIEV正式上市

蘋果或重啟與長江存儲合作國行機(jī)型擬采用國產(chǎn)NAND

曲線華爾茲現(xiàn)代簡約