機器之心編輯部
近日,Anthropic 公布了一組驚人的數字,在與 Mozilla 公司進行合作,測試旗下模型 Claude Opus 4.6 發現漏洞能力的過程中,兩周內,就找出 Mozilla 公司「火狐」(Firefox)瀏覽器中 22 個不同的漏洞,其中 14 個是「高危漏洞」級別,而這幾乎是 Mozilla 2025 年修復的全部「高危漏洞」的五分之一。
換句話說:AI 正以極快的速度幫助人類檢測出嚴重的安全漏洞。
![]()
此消息一出,引起網友熱議。
網友 sunxiayi 認為,Claude 能夠在兩周內發現如此多數量的漏洞真是「瘋狂」,「這基本上相當于整個安全團隊的季度工作。」
而在 AI 如何瘋狂、高效的工作能力面前,人類安全工程師似乎在失去競爭優勢。
![]()
網友則認為,Claude 的這一戰績無疑是在表明,當下大家正在經歷從「AI 輔助編程」到「AI 從根本上改變安全研究運作方式」的轉變。而這種規模的自動化漏洞能力,也就意味著,每一個代碼庫在 AI 掃描面前都將變得「透明」。
![]()
同樣,也有網友表示擔憂,短時間內能夠找到安全漏洞固然讓人印象深刻,但更令人擔憂的是,「這對進攻端意味著什么?」如果一個模型能在如此短的時間內發現 Firefox 中的 14 個高危漏洞,那么攻擊面發現的博弈規則已經發生了永久性的改變:防御方獲得了一個利器,但其他人(攻擊者)也同樣擁有了它。」
![]()
而網友針對此事的反應如此激烈,其實也在一定程度上說明,在大模型技術快速發展的當下,安全問題已然變得愈加重要,軟件安全性依然是各大技術發展過程中的重中之重。
接下來,我們就來具體了解一下此次 Anthropic 與 Mozilla 合作的詳情,以及到底 Claude Opus 4.6 是如何能夠做出這樣的成績的。
從模型評測到安全合作
2025 年底,Anthropic 注意到 Opus 4.5 在 CyberGym(一個用于測試 LLM 是否能夠復現已知安全漏洞的基準測試)上已經幾乎能夠解決所有任務,于是,團隊希望構建一個「更困難、更貼近真實世界」的評估環境,其中包含更高比例的技術復雜漏洞,例如現代瀏覽器中所存在的漏洞。
因此,Anthropic 建立了一個關于 Mozilla 的 Firefox 歷史 CVE(通用漏洞披露)的數據集,以觀察測試 Claude 是否能夠復現這些漏洞。
之所以選擇 Firefox,是因為它既是一個復雜的代碼庫,也是世界上測試最充分、最安全的開源項目之一,這對 AI 發現新型安全漏洞的能力是一個更嚴峻的考驗。而相較于 Anthropic 之前測試模型的開源軟件相比,這明顯更具挑戰性。每天有數億用戶依賴它,而瀏覽器漏洞尤為危險,因為用戶經常接觸不受信任的內容,并依賴瀏覽器來保證安全。
團隊所做的第一步是使用 Claude 在舊版本 Firefox 代碼庫中尋找已知 CVE。令人驚訝的是,Opus 4.6 能夠復現相當高比例的歷史漏洞,而這些漏洞當初往往需要研究人員付出大量人力才能發現。
不過,當時大家對這個結果仍然存在疑問,因為這些歷史漏洞可能出現在 Claude 的訓練數據中。因此,僅憑這一結果還不足以證明模型真正具備漏洞發現能力。
于是,團隊讓 Claude 去尋找當前 Firefox 版本中的新漏洞。也就是說,這些漏洞此前從未被報告過。最初專注于 Firefox 的 JavaScript 引擎,隨后逐步擴展到瀏覽器的其他部分。
之所以選擇 JavaScript 引擎的原因包括:
- 它是 Firefox 代碼庫中相對獨立的一部分,可以單獨分析;
- 同時又具有非常大的攻擊面,因為當用戶瀏覽網頁時,JavaScript 引擎會執行來自互聯網的不受信任代碼。
而就在僅僅 20 分鐘探索后,Claude Opus 4.6 報告稱發現了一個 Use-After-Free(釋放后重用)漏洞。這種漏洞屬于內存安全漏洞,可能允許攻擊者用任意惡意內容覆蓋數據。
研究人員在一個獨立虛擬機中驗證了該漏洞,并使用最新 Firefox 版本確認問題存在。隨后兩名 Anthropic 研究員再次驗證。于是,Anthropic 在 Mozilla 的問題追蹤系統 Bugzilla 中提交了 Bug 報告,并附帶了漏洞描述和一份建議補丁(由 Claude 編寫并由報告團隊驗證),以幫助分類溯源。
而就在 Anthropic 驗證并提交第一個漏洞的時間里,Claude 已經發現了另外 50 個崩潰輸入樣本。在對這些崩潰進行分類時,一位 Mozilla 研究人員建議批量提交所有發現,即使不確定所有崩潰案例是否都有安全影響,也不必逐一驗證。
最終,Anthropic 掃描了近 6000 個 C++ 文件,并提交了總計 112 份獨立漏洞報告,其中就包括上述所說的高危和中危漏洞。目前,大多數問題已在 Firefox 148 中修復,其余問題將在后續版本中修復。
從發現漏洞到開發利用代碼
為了測試 Claude 在網絡安全方面的能力上限,Anthropic 還設計了一項新評估,以確定 Claude 是否能夠利用所發現的這些漏洞。換句話說,團隊想了解 Claude 是否也能開發出黑客攻擊所需的工具,利用漏洞執行惡意代碼?
團隊向 Claude 提供已提交給 Mozilla 的漏洞,并要求它為每一個漏洞開發一個利用程序(exploit)。
為了證明利用成功,要求 Claude 演示一次真實的攻擊。具體而言,它必須像攻擊者一樣,在目標系統中讀取并寫入一個本地文件。
為此,團隊運行了數百次實驗,消耗了約 4000 美元的 API 費用,而結果顯示:Claude 只成功利用了兩個漏洞。
這說明兩件事:
- Claude發現漏洞的能力遠強于利用漏洞的能力;
- 發現漏洞的成本比開發 exploit 低一個數量級。
但需要注意的是:Claude 確實成功自動生成了瀏覽器 exploit(盡管只有少數案例),這一點仍然令人擔憂。
另外,需要強調的是,Claude 寫出的 exploit 非常原始,僅在測試環境中有效,而該測試環境移除了部分瀏覽器安全機制,尤其是 sandbox(沙箱),其目的是降低此類漏洞的影響。
因此,在真實 Firefox 中,其本身的縱深防御(defense-in-depth) 可以有效阻止這些特定的 exploit。
不過,突破沙箱的漏洞并非不存在,而 Claude 的攻擊已經完成了完整攻擊鏈中的一個關鍵環節。
AI 驅動的網絡安全未來
這些 AI 輔助 exploit 開發的早期跡象,凸顯了防御者加速「發現與修復」流程的重要性。為此,Anthropic 想分享一些在執行此分析時發現的技術和流程最佳實踐。
首先,在研究 LLM 開發和驗證補丁的「補丁 Agent」(patching agents)時,團隊開發了幾種方法,希望能幫助維護者使用 Claude 等 LLM 更快地分類和處理安全報告。
根據經驗,當 Claude 能夠使用另一個工具檢查自己的工作時,表現最佳。團隊將這類工具稱為「任務驗證器(task verifier)」:這是一種確信 AI Agent 的輸出是否真正實現其目標的可靠方法。驗證器在代理探索代碼庫時提供實時反饋,允許其深入迭代直到成功。
「任務驗證器」幫助團隊發現了上述 Firefox 漏洞,在其他研究中,發現它們在修復 Bug 方面也很有用。一個優秀的補丁 Agent 至少需要驗證兩件事:漏洞是否已被真正消除,以及程序的預期功能是否得以保留。
在 Anthropic 的工作中,團隊構建了能夠自動測試在建議修復后原始 Bug 是否仍能被觸發的工具,并獨立運行測試套件以捕捉回歸(regressions)(即意外破壞其他功能的更改)。
團隊預計,維護者最清楚如何為自己的代碼庫構建這些驗證器。關鍵點在于,給 Agent 一個可靠的方法來檢查這兩個屬性,可以顯著提高其輸出質量。
https://techcrunch.com/2026/03/06/anthropics-claude-found-22-vulnerabilities-in-firefox-over-two-weeks/
https://www.anthropic.com/news/mozilla-firefox-security
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.