網易首頁 > 網易號 > 正文申請入駐

3000份內部文件意外曝光，Anthropic最強模型藏不住了

2026-03-27 17:06:57　來源: 算力游俠

北京舉報

分享至

Anthropic每次傳出新品消息，媒體都愛用"王炸"形容。但這次，王炸是真的來了——只不過是以一種誰都沒料到的方式。

劍橋大學研究員亞歷山大·保韋爾斯和LayerX Security的羅伊·帕斯在翻公開數據時，撞見了一個配置失誤的內容管理系統。近3000份未發布的內部文檔，就這么大剌剌地躺在公開緩存里。

文件內容挺雜：文章草稿、廢稿圖片、內部活動安排，甚至還有一份標題帶"parental leave"的員工文檔。但最扎眼的，是一份新模型的技術草稿。

草稿里藏著兩個名字：Capybara和Mythos。前者是產品名，跟Opus、Sonnet平級；后者是模型代號。同一套引擎，裝進不同的車身。巧的是，千問的卡通形象也叫Capybara，這命名撞得有點意思。

性能數據方面，草稿寫道："與Claude Opus 4.6相比，Capybara在軟件編程、學術推理和網絡安全測試等方面的得分顯著提高。"Anthropic發言人事后證實，新模型在推理、編碼和網絡安全上有"有意義的進步"，代表了"階躍式變化"，已交付極少數早期客戶測試。

但讓Anthropic真正坐不住的，不是分數漲了多少，而是網絡安全能力的質變。草稿里那句"在網絡能力方面目前遠遠領先于任何其他AI模型"，后面緊跟著一句更冷的判斷："預示著即將到來的一波模型浪潮，這些模型利用漏洞的能力將遠遠超過防御者的努力。"

翻譯一下：Anthropic怕的是，這玩意兒落到黑客手里，會成為大規模網絡攻擊的利器。

這種擔憂并非空穴來風。今年2月OpenAI發布GPT-5.3-Codex時，首次將模型歸類為"高網絡安全能力"，專門用于訓練識別軟件漏洞。Opus 4.6也展現出類似天賦，能在代碼庫里找出未知漏洞。Capybara可以是白帽子的守護天使，也可以是黑帽子的惡意病毒。

所以Anthropic設計了一套謹慎到近乎緊張的發布策略。草稿里寫得很直白："在準備發布Claude Capybara時，我們希望格外謹慎。因為我們清楚它帶來的風險，肯定比測試中能遇到的情況更為嚴重。"

具體做法是優先向網絡安全防御組織開放早期訪問，讓他們有時間加固代碼庫，應對AI攻擊浪潮。同時，模型運行成本極高，短期內不會面向普通用戶。

泄露發生后，Anthropic迅速掐斷公開訪問，把鍋甩給"內容管理系統配置中的人為錯誤"，強調這些都是"考慮發布的早期草稿"。但秘密已經漏了，Mythos和Capybara成了公開的秘密，發言人干脆大方承認了二者的存在。

如果Mythos真有"階躍式變化"，我猜它不只是一個更大的base model，而是一套"模型+編排+驗證+風險控制"的復合系統。真正跳變的可能不是參數量，而是"做長任務時不散架"的能力。

技術會變，但Anthropic的技術路線一直很穩。從他們發布的博客就能看出端倪：《下一代分類器：更高效地防范通用越獄攻擊》《降低瀏覽器使用中提示注入的風險》——安全是刻在骨子里的優先級。

很多人以為殺毒軟件還在靠"病毒庫"干活，像警察拿著通緝犯照片挨個比對。實際上，現代EDR系統早就進化了：分析文件結構、監控進程行為、追蹤API調用模式、判斷"這個行為像不像攻擊"。它們找的不是"已知的壞人"，而是"可疑的行為模式"。

Mythos可能把這個邏輯又推了一步：理解攻擊的語義。通過理解代碼、工具調用、對話內容，判斷是否在構造真實可執行的攻擊鏈。它能分辨出：這不是普通壓縮腳本，而是在做規避掃描、自啟動、憑據竊取的一整套動作；這不是正常滲透測試問答，而是在拼接exploit、持久化、橫移、出網的完整鏈條。

更關鍵的是"漏洞泛化發現"能力。Opus 4.6找零日漏洞的方式不像傳統fuzzing那樣亂撞，而是通過理解代碼語義、歷史修復模式和相似bug特征，去找"還沒被修掉的同類漏洞"。看到一個漏洞，立刻聯想到"其他地方是不是也存在類似問題"。

推理能力的提升也不只是benchmark分數更高。可能是思考過程中更少中途漂移，更少為了迎合用戶而過度自信，更會顯式區分"已知、推斷、未知"，更會在不確定時保守行動。好的模型不只是更會生成答案，而是更會管理自己的不確定性。

編程方面，Mythos可能從"會寫代碼"進化到"會經營代碼庫"。把模塊邊界、依賴關系、歷史patch風格、測試習慣一起建模；先拆改動圖、再分批落patch，而不是想到哪改到哪；寫完主動補測試、跑靜態檢查，根據失敗日志回滾到更穩的方案。這種能力對真實工程項目的價值，遠超在測試集上多做對幾道題。

最終要落到的，是在線束（harness）能力——從"單次回答強"到"整條執行鏈穩"的跨越。把大任務拆成可驗證的小階段，多子任務并行執行再匯總，長鏈條里保留關鍵狀態、丟掉噪聲。某步報錯時不用從頭來過，定位問題、局部修復、繼續執行。就像游戲里的檢查點，BOSS沒打過，傳回上一存檔點即可，不用重打整個章節。

這有點像工業控制里的"線束管理"：不是某根線更粗，而是整個連接、隔離、容錯、標記、回路設計更合理。

長上下文能力也可能不只是"窗口更大"，而是"利用率更高"。現在各家都說自己能裝幾十萬字，但一問全文重點或文檔關系，立刻啞巴。Mythos的進步可能體現在：更強的重點檢測、更好的層級摘要、更準的跨文檔對齊、更有效的持續記憶寫回。

工具使用上，可能從"會調工具"升級到"會設計實驗"。真正的跨越不是UI自動化更強，而是知道什么時候該讀代碼、跑測試、查文檔，如何設計最小驗證閉環、避免無效探索、控制成本。從"會操作電腦"變成"會像工程師那樣做排障實驗"——甚至"碰到問題時，原地掏出一個機床自己造個特化工具來處理"。

這些能力從哪來？可能是幾種訓練和推理技巧的疊加。

一是更重的測試時計算。模型根據任務難度動態分配"思考預算"，關鍵步驟上做更長更深的推理，而不是一口氣線性吐完。普通AI是閉卷快答選手，不管1分題還是20分壓軸題，掃一眼就動筆，寫一步不回頭，勻速寫完，哪怕題很難也順嘴瞎編。Mythos是學霸：簡單題秒答，復雜大題多打草稿、多琢磨幾遍，卡殼了停下來多想一層，絕不張嘴就來。

二是更偏向agent軌跡的強化學習。訓練目標不再是"最后一句話答對了沒有"，而是"整條任務鏈有沒有成功完成"——怎么拆計劃、何時調用工具、何時停下來驗證、出錯后如何回退。原來的訓練像只看項目最后交沒交差，哪怕實習生中間瞎搞、找別人代做，蒙對了就發獎金；中間全對最后手抖錯了，直接扣錢，完全不管過程。Mythos是全程盯流程，看你會不會把大項目拆成小計劃，什么時候該查資料、用工具，什么時候該停下來核對，做錯了會不會回頭修正。

三是更強的verifier。內置的審稿人或質檢員，在代碼場景里檢查patch是否真的成立，在安全場景里檢查輸出是否顯著增加攻擊可執行性。普通AI是作者寫完直接發，不管錯別字、事實錯誤、合規風險；Mythos要有提綱、多道審核、還要去求證。

四是更細粒度的風險監控。不只看最終文本，而是看模型內部表征和中間軌跡，判斷是否正在形成危險的攻擊鏈。這也是為什么我一直拿現代殺毒軟件來類比——識別的不是"某個壞答案"，而是"這個請求會造成怎樣的后果"。一旦成熟，安全就不再是外掛過濾器，而會變成模型推理過程本身的一部分。

把這些串起來看，Mythos可能是一個將語義泛化、長任務穩定性、工具編排、風險控制融合起來的新產品。這也解釋了為什么Anthropic如此謹慎：一個能理解攻擊語義、能泛化發現漏洞、能編排長鏈條任務、能自主使用工具的AI，已經摸到AGI的防盜門了。

但這里有個更深層的問題：當AI的攻擊能力系統性地超過防御能力，整個網絡安全的平衡會不會被打破？

如果未來幾個月Anthropic正式發布Mythos或Capybara，最該盯緊的是它在computer use、terminal、browser這類長任務環境里的穩定性。這類場景最能暴露一個模型到底只是"單輪回答強"，還是已經具備"持續執行"的系統能力。真正的階躍式變化，最后都會反映在這些難以偽裝的指標上。

泄露事件發生后，一位網絡安全研究員在社交媒體上留言： "我們花了十年教AI識別攻擊，現在可能要花更長時間教它別成為攻擊本身。"

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.