![]()
新智元報道
編輯:Aeneas
【新智元導讀】AI黑客Claude Mythos覺醒了!英國AI安全研究所證實,它是首個破解企業網絡攻擊測試的AI,僅用32步,完成20小時人類任務只需幾秒。高盛已經緊急拉響紅色警報,人類的網絡安全,已經進入奧本海默時刻。
今天,數條恐怖的消息同時在全網刷屏了。
據爆料,華爾街巨頭高盛正在瘋狂加強網絡防御,為的就是應對Claude Mythos!
![]()
緊急拉響紅色警報的高盛,并不是風聲鶴唳。
就在剛剛,英國人工智能安全研究所(AISI)發布了一項重磅研究:Anthropic于4月7日發布的Claude Mythos Preview模型,在網絡安全評估中表現出令人毛骨悚然的能力。
![]()
這次,AISI的測試環境,選在了代號為「The Last Ones」 (TLO)的超高難度模擬網絡靶場。
結果出乎意料:Mythos完成了人類專家需要20小時才能完成的32步企業網絡攻擊模擬,而且在這個過程中做到了全自動、全自主。
AISI驚呼:Claude Mythos是全球首個完成AISI網絡靶場端到端測試的模型!
![]()
這個實驗報告一出爐,也引發了圈內的強烈反響:看來Anthropic所言非虛,Claude Mythos的確與眾不同。我們確實有理由擔憂它對于網絡安全界可能造成的巨大影響。
![]()
![]()
難怪高盛會害怕,顯然,全球網絡安全基建如今正在經歷一場「奧本海默時刻」。
![]()
這些天,很多人都在質疑關于Mythos的擔心只是營銷手段,但這些天曝出的數據,逐漸證實:Mythos,或許真的很危險。
![]()
那個讓高盛睡不著覺的AI黑客
英國AISI這個組織在業內小有名氣。
從2023年開始,他們就一直在追蹤AI的網絡安全能力,為此專門構建了一套從易到難的評估體系。
奪旗賽結果
在CTF(Capture-the-flag )挑戰賽中,AI 模型必須識別并利用目標系統中的弱點來獲取隱藏的「flag」。
2025年4月之前,任何模型都無法完成入門級的專家級任務。
但在今天的專家級奪旗賽(CTF)任務中,Claude Mythos Preview的成功率已經高達73%!
![]()
自2022年11月以來,模型在技術非專家和學徒級別的奪旗賽 (CTF) 任務上的表現。GPT-3.5 Turbo到Claude 4 Opus平均運行10次,最多處理250萬個token。GPT-5 到Mythos Preview平均運行5次,最多處理250萬個token
而且,要敲黑板的是,這些專家級任務在2025年4月之前,沒有任何模型能夠完成。
但Claude Mythos Preview一上手,成功率就已經飆升至73%這個驚艷成績。
![]()
自2025年8月以來,模型在實踐者和專家級奪旗任務 (CTF) 中的表現。所有模型平均運行5次,達到5000萬個token
網絡靶場結果:20小時 vs 幾秒鐘
這還不是最恐怖的。
真正讓安全專家們徹夜難眠的,是 「The Last Ones」(最后的挑戰者) 測試。
即使是專家級的CTF比賽也只能孤立地測試特定技能。而現實世界的網絡攻擊需要將數十個步驟串聯起來,跨越多個主機和網絡段——這些持續性操作需要人類專家花費數小時、數天甚至數周的時間才能完成。
為此,AISI的研究者們構建了「The Last Ones」 (TLO),這是一個模擬真實企業網絡的32步攻擊鏈路。從最初的網絡偵察開始,到最終完全控制整個網絡結束,人類專家完成這個測試需要整整20個小時。
而Claude Mythos Preview是第一個從頭到尾打通這個測試的AI模型!
在10次嘗試中,它成功了3次,平均每次完成22個步驟。
![]()
在「The Last Ones」任務中,模型完成的平均步驟數隨總token消耗的變化關系。Mythos Preview、Opus 4.6 和 GPT-5.4 在最高100M token預算下平均運行10次;Opus 4.5、GPT-5.1 Codex 和 Sonnet 4.5 在1000萬token預算下平均運行15次,在100M token預算下平均運行5次;GPT-5.3-Codex 在1000萬token預算下平均運行10次,在100M token預算下平均運行5次;Sonnet 3.7 和 GPT-4o 僅在1000萬token預算下平均運行10次。在所測試的token預算范圍內,隨著token預算的增加,各模型的表現持續提升。灰色的水平線表示攻擊鏈中的關鍵里程碑
也就是說,Claude Mythos可以在沒有人類干預的情況下,自主完成一次完整的企業網絡滲透,包括掃描漏洞、尋找弱點、橫向移動、權限提升、最終拿下整個網絡。
這是一條完整的黑客攻擊鏈,而Mythos,就是那個唯一的攻擊手。
研究者發現了這個令人顫栗的事實:Mythos已經具備了獨立完成「滅國級」網絡攻擊的潛力。
它不需要人類黑客在鍵盤前敲命令,不需要等待指令,不需要人類的判斷。它自己就是判斷,自己就是執行者。
它不是一個工具,而是一個有目標、有策略、有執行力的數字生命體。
難怪高盛要瘋狂加碼網絡防御。
![]()
![]()
拔網線都來不及,這次噩夢成真了
在專家級奪旗賽(CTF)中,AI模型的進化階梯是這樣的。
2022年,AI只能勉強看懂初學者代碼。
2024年,Opus 4.6能協助黑客編寫局部腳本,平均完成16步攻擊。
2026年,Mythos能獨立完成32步連環絕殺,自主發現并利用Linux內核與瀏覽器的0-day漏洞。
進化速度堪稱可怕。
網上一直有這么一個老梗:面對黑客攻擊,最終極的防御手段就是拔網線。
但Claude Mythos的出現,導致拔網線都來不及了。
原因無他,就是Mythos的攻擊速度太快了。
既然Mythos Preview完成32步攻擊鏈路所花費的時間,遠遠低于人類專家的20小時,那么可以肯定,整個攻擊過程可以在極短時間內完成,快到防御團隊甚至來不及反應!
等你發現被入侵,想拔網線的時候,AI早就拿到最高權限,把數據全部復制完畢了。
英國AISI的評估報告明確指出:Mythos已具備對防御薄弱的企業系統進行自主潛入與破壞的能力。
我們離「AI黑客泛濫」還有多遠?
或許你會想:Claude Mythos不是還攻不破防御嚴密的工業控制系統嗎?
既然它在冷卻塔測試中卡殼了,是不是我們還有時間?
對,我們還有時間,但時間不多了。
英國AISI的評估中有一個關鍵細節:在1億token的預算限制下,Mythos Preview的性能仍在持續提升。
也就是說,給它更多的計算資源,它的能力還能繼續增長。
![]()
在一部分私有網絡安全任務中,累計成功率隨token預算(上圖,AISI)和交互輪次預算(下圖,Irregular)的變化關系。隨著預算的增加,累計成功率的每一次提升,都意味著有更多嘗試最終取得成功。橫軸采用對數刻度,因此曲線的上升反映的是推理計算量跨數量級增長所帶來的性能提升
而計算資源的成本,正在以指數級下降。
兩年前,最先進的AI連入門級CTF都做不好。今天,AI已經能完成專家級任務。兩年后呢?
如今,英國國家網絡安全中心(NCSC)已經發出了明確警告:未來的前沿模型將更加強大,現在對網絡防御的投資至關重要。
留給人類的時間窗口,已經不多了。
為什么 Mythos 讓全行業脊背發涼?
為什么 Claude Mythos 如此特殊?因為它解決了 AI 攻擊的三個「終極難題」:
第一:從「工具人」到「指揮官」
以前的 AI 需要人類指令:「幫我寫個溢出腳本」。
現在的 Mythos 只需要一個目標:「接管這個財務網絡」。
它會自主進行信息收集,發現防火墻漏洞,嘗試不同路徑,如果路徑A不通,它自主尋找路徑B。這種多步決策能力,正是它通關TLO靶場的關鍵。
第二:對0-day漏洞的「嗅覺」
0-day漏洞,是廠商尚未知曉的死穴。Mythos展現出了在龐大的Linux內核代碼庫中精準定位未公開缺陷的能力。
這根本不是AI,分明是一個24小時不睡覺、每秒鐘閱讀幾百萬行代碼的頂級黑客。
第三:毀滅性的推理擴展
上文已經提到了這個讓人不安的細節:推理計算(Inference Compute)的規模效應。
測試發現,只要給 Mythos 更多的計算配額(Tokens),它的攻擊成功率就會呈指數級增長。
這就像是一個怪物,你喂給它的能量越多,它的智商就越沒有上限。
現實世界的陰影
你可能會說:「這只是實驗室里的測試,現實世界防守很嚴啊。」
快醒醒吧!
AISI的警告非常明確:雖然Mythos目前在防御嚴密的工業OT環境(如冷卻塔控制系統)中還存在局限,但對于絕大多數防御薄弱的企業系統,它已經具備了「一鍵摧毀」的能力。
更可怕的是,Anthropic雖然限制了訪問權限,僅對AWS、微軟等40多個合作伙伴開放,但這種雙用途風險是無法完全規避的。
如果Mythos被泄露了呢?如果地下黑客組織訓練出了自己的暗黑版Mythos呢?
正如安全專家所言:「我們正在進入一個攻擊成本近乎為零的新時代。」
你的企業還撐得住嗎?下面是五個殘酷的問題。
第一,你的系統多久打一次安全補丁?
第二,你的訪問控制有多嚴格?
第三,你有沒有完整的日志記錄?
第四,你做過模擬攻擊演練嗎?
第五,你的安全團隊有沒有AI輔助?
記住:你不是在和AI賽跑,你是在和「使用AI的攻擊者」賽跑。
在少數頂級實驗室的服務器里,AI已經能夠自主完成企業網絡劫持。在少數科技巨頭的安全團隊中,AI已經在幫助發現零日漏洞。
但在大多數普通企業、學校、醫院、政府機構里,網絡安全還停留在「裝個防火墻就萬事大吉」的階段。
當AI黑客真正泛濫的那一天到來時,那些今天還在僥幸覺得「我們沒那么重要不會被盯上」的組織,將成為第一波犧牲品。
參考資料:
https://www.aisi.gov.uk/blog/our-evaluation-of-claude-mythos-previews-cyber-capabilities
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.