網易首頁 > 網易號 > 正文申請入駐

Claude Mythos，模型太強限發布，防止惡意窗口期最短僅6個月

2026-04-08 23:33:35　來源: 未盡研究

上海舉報

分享至

Claude Mythos，因為過于強大，而一時無法發布。它首次把AI推向了一個新的邊界，必須面對更強的模型和更大的現實風險。

因為過于強大，它在網絡安全的防守和進攻方面都表現出前所未有的技能，既能讓“善意方”發現和修復軟件代碼中的漏洞，又能讓“惡意方”設計出復雜的手段去利用這些漏洞。

于是它只能“限量”開放，只允許“玻璃之翼計劃”（Project Glasswing）的有限的合作伙伴測試。

在系統卡中，Anthropic將Claude Mythos Preview稱為迄今為止能力最強的前沿模型。與Claude Opus 4.6相比，它在許多評估基準測試中的得分，都實現了階梯式的飛躍。

在真實世界軟件工程多模態任務的SWE-bench-Multimodal測試中，Mythos得分59.0%，比Opus 4.6高出近30個百分點；在長上下文GraphWalks測試中，Mythos得分80%，比Opus 4.6與GPT-5.4都要高出50個百分點左右；同樣不使用工具，Mythos在智能體式搜索以及復雜科學圖表理解上，都要領先Opus 4.6超過至少15個百分點。

2026/04/08 完整閱讀 >

如果說，去年市場一直期待OpenAI的GPT-5會是這樣一款代際躍遷式的大模型，結果“擠牙膏式”的性能上限的提升，讓市場失望，那么，這次Anthropic的Claude Mythos，將這層缺憾補上了。

過于強大的Claude Mythos，直接以“受限測試”的形式出現。在能力、風險與競爭同時躍遷的背景下，未來的大模型，最終會走向廣泛部署，還是長期停留在一個被嚴格控制的小范圍之中？但即使如此，能防止惡意利用的窗口期，可能最短僅有6個月。

測試時擴展范式更新

Anthropic沒有詳細解釋，幫助Claude Mythos性能大幅“躍升”的動力來自何方。但至少不是全憑花費更多的token進行測試時擴展（test-time compute scaling）。在OpenAI的o1發布后，當時負責推理研究的Noam Brown，將其視為“新的擴展范式”：即，在推理階段追加更多的token消耗，模型的輸出質量往往也會繼續提升。無論是Claude 4.5還是Claude 4.6的不同杯型，都反復驗證了它仍在生效。

但是，盡管Claude Mythos同樣符合這一擴展范式，它的起點顯然站得更高。BrowseComp是一項衡量智能體在開放網絡上尋找難以定位信息的能力的測試基準。同樣是限定1百萬token，從Claude Opus 4.5到Claude Opus 4.6再到Claude Mythos Preview，實際完成每個任務的token數量不斷下降，而它的準確率卻仍能夠不斷提升。

現在，同樣要讓完成一項任務的準確率達到84%左右，Claude Opus 4.6平均要花去超過100萬token數，而Claude Mythos則不需要超過20萬，相差在5-10倍左右。

這意味著新的測試時擴展范式。隨著不少測試基準逐漸接近飽和，評價模型進步的方式，也可以換一個角度：不僅要看其性能上限被推高到何處，還要看它究竟以怎樣的token成本實現這一點。

這對于AI通過智能體面向白領工作滲透，具有更高的現實意義。Anthropic正在重寫token經濟學。它一邊通過向智能體系統引入多輪規劃、執行、測試與回退，花費額外的token開銷，得到更為可靠結果，一邊讓模型在迭代過程中，不斷內生地吸收部分能力，從而在更低token成本下，復現甚至超越原有性能。

2026/04/07 完整閱讀 >

不過，也別高興得太早。稀缺仍有其溢價。Anthropic目前將Claude Mythos預覽版的API定價，設為每百萬輸入/輸出代幣25美元/ 125美元。這個價格是其目前最先進模型的五倍。

理論上，仍然會有不少企業愿意接受這一價格。這取決于它能創造多高的收入，或者替代多貴的勞動力成本。在Claude Mythos的紅隊測試中，該模型花了不到2萬美元的總成本，解決了發現了OpenBSD中幾十個漏洞。其中最嚴重的漏洞，已經存在了27年，攻擊者只需建立連接，即可遠程崩潰運行該系統的任意機器。這是一個龐大的市場。目前，全球網絡安全導致的經濟損失，可能每年高達5000億美元左右。

接下去就要看，OpenAI關停Sora，全力押注的Spud模型，能否再次將Mythos拖入價格戰，或形成有錢商量著賺的寡頭格局。

玻璃之翼計劃

不過，目前，Claude Mythos的這份能力，不是花錢就能買到的。它太過強大，尤其是在網絡安全領域。

在系統卡中，Anthropic的安全團隊承認，Claude Mythos在開放式科學推理、戰略判斷和假設篩選方面存在明顯局限性，也并未達到自動化“遞歸進化”的AI研發能力門檻，因此暫無引發“末日場景”的風險。但是在與網絡安全和自主性相關的功能方面，它較之前的前沿模型有了顯著提升，包括對這些功能的濫用以及意外的自主行為。

AI編碼一直都是Claude的強項。按照Anthropic首席科學官Jared Kaplan的說法，該模型在網絡安全領域的能力躍遷，并非來自特殊訓練。這無非是代碼能力的外溢（side effect）。他預測，其他模型很快也會出現類似的網絡安全能力，要讓“善意方”（good actors）在保護開源和私有基礎設施及代碼的進程中搶占先機。該公司前沿紅隊負責人Logan Graham則稱，這個時間窗口，最早6個月，最晚24個月。

沃頓商學院Ethan Mollick被提前告知了這兩點。在社交媒體平臺X上，他推測稱，美國只有3家公司能達到這一水平，而中國開源模型會在9個月內追上來。今日，恰好GLM-5.1發布，性能與Claude Opus 4.6全面對齊。

目前，Anthropic選定的“善意方”，包括蘋果、谷歌、英偉達等12家合作伙伴，以及約40個構建或維護關鍵軟件基礎設施的組織。它們包括芯片制造商、操作系統廠商、云基礎設施、網絡安全供應商以及金融垂直領域等。

這就是玻璃之翼計劃。這是一個讓Anthropic相當得意的雙關隱喻。一方面，透明翅膀讓蝴蝶能夠隱匿于眾目睽睽之下就像那些漏洞一樣；另一方面，這種透明性也幫助它避開傷害，正如Anthropic所倡導的“透明性”。

受控普惠

能力、風險與治理，相互制約。Claude Mythos的出現，以及玻璃之翼計劃的設立，將改寫未來一段時間內大模型的發布邏輯。

在過去很長一段時間里，前沿閉源模型不斷推高能力上限，高價值任務率先進入其能力邊界，并以高昂的 API 價格對企業開放；隨后，開源模型快速跟進，將接近的能力擴散至更廣泛用戶，也反過來迫使閉源模型陷入商品化趨勢。

而現在，這一路徑被阻斷了。Claude Mythos 并未進入這一擴散循環，而是被限制在 Anthropic 所定義的“善意方”的范圍內，明確“不計劃向公眾開放”。

在對外預覽之前，Anthropic甚至進行了為期24小時的內部對齊審查，以決定是否允許模型在公司內部部署。審查通過后，早期版本于2月24日內部上線，并迅速暴露出其在網絡安全攻防方面的強大能力。這促使其最終成為首個發布系統卡、卻未進行公開商業化的前沿模型。

這也事關地緣競爭。目前，Anthropic已向網絡安全與基礎設施安全局（CISA）、商務部以及“更廣泛的相關方”的高級官員做了簡報。但暫不明確溝通對象是否包括五角大樓。公司還“隨時準備支持政府自身對該技術的測試和評估”。值得注意的是，Anthropic最近還與谷歌、OpenAI攜手，防止其他國家的大模型廠商“對抗性蒸餾”。

這種“限制、評估、再決定是否擴散”的發布路徑，標志著模型治理邏輯的變化。Anthropic已承諾將在90天內發布公開報告，披露研究階段的主要發現、已修復漏洞及系統改進成果。其最終目標，是為了讓用戶能夠安全地大規模部署Mythos級別的模型，既用于網絡安全目的，也充分受益于其強大而又通用的能力。

這并非沒有先例。2019年，OpenAI在發布GPT-2時，曾因擔心其被用于大規模生成誤導性內容，而選擇暫緩開放完整模型，并在后續安全評估后，分階段、按大小，逐步釋放。GPT-2項目的許多核心貢獻者，后來離開了OpenAI，創辦了Anthropic。

只不過，這一次，沒人知道過渡期會有多久。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.