![]()
Anthropic每次傳出新品消息,媒體都愛用"王炸"形容。但這次,王炸是真的來了——只不過是以一種誰都沒料到的方式。
劍橋大學研究員亞歷山大·保韋爾斯和LayerX Security的羅伊·帕斯在翻公開數據時,撞見了一個配置失誤的內容管理系統。近3000份未發布的內部文檔,就這么大剌剌地躺在公開緩存里。
文件內容挺雜:文章草稿、廢稿圖片、內部活動安排,甚至還有一份標題帶"parental leave"的員工文檔。但最扎眼的,是一份新模型的技術草稿。
草稿里藏著兩個名字:Capybara和Mythos。前者是產品名,跟Opus、Sonnet平級;后者是模型代號。同一套引擎,裝進不同的車身。巧的是,千問的卡通形象也叫Capybara,這命名撞得有點意思。
性能數據方面,草稿寫道:"與Claude Opus 4.6相比,Capybara在軟件編程、學術推理和網絡安全測試等方面的得分顯著提高。"Anthropic發言人事后證實,新模型在推理、編碼和網絡安全上有"有意義的進步",代表了"階躍式變化",已交付極少數早期客戶測試。
但讓Anthropic真正坐不住的,不是分數漲了多少,而是網絡安全能力的質變。草稿里那句"在網絡能力方面目前遠遠領先于任何其他AI模型",后面緊跟著一句更冷的判斷:"預示著即將到來的一波模型浪潮,這些模型利用漏洞的能力將遠遠超過防御者的努力。"
翻譯一下:Anthropic怕的是,這玩意兒落到黑客手里,會成為大規模網絡攻擊的利器。
這種擔憂并非空穴來風。今年2月OpenAI發布GPT-5.3-Codex時,首次將模型歸類為"高網絡安全能力",專門用于訓練識別軟件漏洞。Opus 4.6也展現出類似天賦,能在代碼庫里找出未知漏洞。Capybara可以是白帽子的守護天使,也可以是黑帽子的惡意病毒。
所以Anthropic設計了一套謹慎到近乎緊張的發布策略。草稿里寫得很直白:"在準備發布Claude Capybara時,我們希望格外謹慎。因為我們清楚它帶來的風險,肯定比測試中能遇到的情況更為嚴重。"
具體做法是優先向網絡安全防御組織開放早期訪問,讓他們有時間加固代碼庫,應對AI攻擊浪潮。同時,模型運行成本極高,短期內不會面向普通用戶。
泄露發生后,Anthropic迅速掐斷公開訪問,把鍋甩給"內容管理系統配置中的人為錯誤",強調這些都是"考慮發布的早期草稿"。但秘密已經漏了,Mythos和Capybara成了公開的秘密,發言人干脆大方承認了二者的存在。
如果Mythos真有"階躍式變化",我猜它不只是一個更大的base model,而是一套"模型+編排+驗證+風險控制"的復合系統。真正跳變的可能不是參數量,而是"做長任務時不散架"的能力。
技術會變,但Anthropic的技術路線一直很穩。從他們發布的博客就能看出端倪:《下一代分類器:更高效地防范通用越獄攻擊》《降低瀏覽器使用中提示注入的風險》——安全是刻在骨子里的優先級。
很多人以為殺毒軟件還在靠"病毒庫"干活,像警察拿著通緝犯照片挨個比對。實際上,現代EDR系統早就進化了:分析文件結構、監控進程行為、追蹤API調用模式、判斷"這個行為像不像攻擊"。它們找的不是"已知的壞人",而是"可疑的行為模式"。
Mythos可能把這個邏輯又推了一步:理解攻擊的語義。通過理解代碼、工具調用、對話內容,判斷是否在構造真實可執行的攻擊鏈。它能分辨出:這不是普通壓縮腳本,而是在做規避掃描、自啟動、憑據竊取的一整套動作;這不是正常滲透測試問答,而是在拼接exploit、持久化、橫移、出網的完整鏈條。
![]()
更關鍵的是"漏洞泛化發現"能力。Opus 4.6找零日漏洞的方式不像傳統fuzzing那樣亂撞,而是通過理解代碼語義、歷史修復模式和相似bug特征,去找"還沒被修掉的同類漏洞"。看到一個漏洞,立刻聯想到"其他地方是不是也存在類似問題"。
推理能力的提升也不只是benchmark分數更高。可能是思考過程中更少中途漂移,更少為了迎合用戶而過度自信,更會顯式區分"已知、推斷、未知",更會在不確定時保守行動。好的模型不只是更會生成答案,而是更會管理自己的不確定性。
編程方面,Mythos可能從"會寫代碼"進化到"會經營代碼庫"。把模塊邊界、依賴關系、歷史patch風格、測試習慣一起建模;先拆改動圖、再分批落patch,而不是想到哪改到哪;寫完主動補測試、跑靜態檢查,根據失敗日志回滾到更穩的方案。這種能力對真實工程項目的價值,遠超在測試集上多做對幾道題。
最終要落到的,是在線束(harness)能力——從"單次回答強"到"整條執行鏈穩"的跨越。把大任務拆成可驗證的小階段,多子任務并行執行再匯總,長鏈條里保留關鍵狀態、丟掉噪聲。某步報錯時不用從頭來過,定位問題、局部修復、繼續執行。就像游戲里的檢查點,BOSS沒打過,傳回上一存檔點即可,不用重打整個章節。
這有點像工業控制里的"線束管理":不是某根線更粗,而是整個連接、隔離、容錯、標記、回路設計更合理。
長上下文能力也可能不只是"窗口更大",而是"利用率更高"。現在各家都說自己能裝幾十萬字,但一問全文重點或文檔關系,立刻啞巴。Mythos的進步可能體現在:更強的重點檢測、更好的層級摘要、更準的跨文檔對齊、更有效的持續記憶寫回。
工具使用上,可能從"會調工具"升級到"會設計實驗"。真正的跨越不是UI自動化更強,而是知道什么時候該讀代碼、跑測試、查文檔,如何設計最小驗證閉環、避免無效探索、控制成本。從"會操作電腦"變成"會像工程師那樣做排障實驗"——甚至"碰到問題時,原地掏出一個機床自己造個特化工具來處理"。
這些能力從哪來?可能是幾種訓練和推理技巧的疊加。
一是更重的測試時計算。模型根據任務難度動態分配"思考預算",關鍵步驟上做更長更深的推理,而不是一口氣線性吐完。普通AI是閉卷快答選手,不管1分題還是20分壓軸題,掃一眼就動筆,寫一步不回頭,勻速寫完,哪怕題很難也順嘴瞎編。Mythos是學霸:簡單題秒答,復雜大題多打草稿、多琢磨幾遍,卡殼了停下來多想一層,絕不張嘴就來。
二是更偏向agent軌跡的強化學習。訓練目標不再是"最后一句話答對了沒有",而是"整條任務鏈有沒有成功完成"——怎么拆計劃、何時調用工具、何時停下來驗證、出錯后如何回退。原來的訓練像只看項目最后交沒交差,哪怕實習生中間瞎搞、找別人代做,蒙對了就發獎金;中間全對最后手抖錯了,直接扣錢,完全不管過程。Mythos是全程盯流程,看你會不會把大項目拆成小計劃,什么時候該查資料、用工具,什么時候該停下來核對,做錯了會不會回頭修正。
三是更強的verifier。內置的審稿人或質檢員,在代碼場景里檢查patch是否真的成立,在安全場景里檢查輸出是否顯著增加攻擊可執行性。普通AI是作者寫完直接發,不管錯別字、事實錯誤、合規風險;Mythos要有提綱、多道審核、還要去求證。
四是更細粒度的風險監控。不只看最終文本,而是看模型內部表征和中間軌跡,判斷是否正在形成危險的攻擊鏈。這也是為什么我一直拿現代殺毒軟件來類比——識別的不是"某個壞答案",而是"這個請求會造成怎樣的后果"。一旦成熟,安全就不再是外掛過濾器,而會變成模型推理過程本身的一部分。
把這些串起來看,Mythos可能是一個將語義泛化、長任務穩定性、工具編排、風險控制融合起來的新產品。這也解釋了為什么Anthropic如此謹慎:一個能理解攻擊語義、能泛化發現漏洞、能編排長鏈條任務、能自主使用工具的AI,已經摸到AGI的防盜門了。
但這里有個更深層的問題:當AI的攻擊能力系統性地超過防御能力,整個網絡安全的平衡會不會被打破?
如果未來幾個月Anthropic正式發布Mythos或Capybara,最該盯緊的是它在computer use、terminal、browser這類長任務環境里的穩定性。這類場景最能暴露一個模型到底只是"單輪回答強",還是已經具備"持續執行"的系統能力。真正的階躍式變化,最后都會反映在這些難以偽裝的指標上。
泄露事件發生后,一位網絡安全研究員在社交媒體上留言: "我們花了十年教AI識別攻擊,現在可能要花更長時間教它別成為攻擊本身。"
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.