短短一周,8300億美元,就在股市里憑空消失了。
你沒看錯,是蒸發
軟件巨頭們——Salesforce、ServiceNow、微軟——股價全部自由落體。路透社一天跌了16%,Intuit開年到現在已經跌沒了34%。
![]()
華爾街給這場災難起了個驚悚的名字:“SaaS末日”(SaaS-pocalypse)。
而點燃這根導火索的,竟然只是一個AI模型。
2026年2月5日,Anthropic發布了 Claude Opus 4.6。名字聽起來平平無奇,像個不痛不癢的小更新對吧?
但這簡直是披著羊皮的狼。
在它公開發布之前,這個“怪物”自主發現了超過500個嚴重的軟件安全漏洞。
重點是:這些漏洞,之前沒有一個人發現。無論是頂級開發者,還是傳統的安全工具,統統都沒發現。
更刺激的是,就在同一天,OpenAI 反手扔出了一顆核彈:ChatGPT 5.3 Codex。
![]()
![]()
兩顆炸彈同時落地,整個行業都被炸懵了。
今天,我們就來扒一扒,為什么這玩意兒是客觀上史上最強的AI,為什么華爾街嚇得瑟瑟發抖,以及最關鍵的——這對你我這種普通人,到底意味著什么。
是誰點燃了導火索?
Anthropic在一月發布的 Claude Cowork,讓AI可以直接在專業軟件里干活。電子表格、演示文稿、法律財務軟件,它都能搞定。
原理其實特簡單。以前我們是用ChatGPT生成內容,然后再復制粘貼;現在?AI直接在你用的軟件里上手操作。
當那幫交易員眼睜睜看著Claude自己起草法律合同、自己分析復雜的財務報表、自己做出一套專業的PPT時,他們終于意識到了一件可怕的事:
如果一個每月20刀的AI,能干完每月500刀的SaaS軟件的活,誰還會當冤大頭去買軟件?
Jefferies的交易員Jeffrey Favazza一語道破天機:“我們管這叫‘SaaS末日’。
Salesforce股價應聲暴跌7%,ServiceNow也跌了7%。就連英偉達都沒能幸免。
被譽為SaaS教父的Jason Lemkin直接在博客里寫道:2026年初,對這個行業來說,就是一場徹頭徹尾的崩盤。
當然,咱們實事求是,Anthropic不是唯一的兇手。微軟和亞馬遜最近的財報難看,加上美元和比特幣的波動,大家都人心惶惶。
但是,Claude Cowork絕對是壓死駱駝的最后那一根稻草。
美國銀行覺得這幫投資人簡直“不可理喻”,因為他們在同時押注兩個完全相反的邏輯:要么是AI支出下降,要么是AI太強把所有軟件都干廢了。
這兩個邏輯不可能同時成立,對吧?
這細節看似無關痛癢,其實細思極恐。這說明市場在面對這種指數級進化的速度時,完全是瞎子摸象,徹底慌了神。
那些改變一切的數字
咱們來聊聊這個模型。Claude Opus 4.6 距離上一代 4.5 也就才過了3個月,但這進步,簡直是坐了火箭。
最嚇人的數字是這個:一百萬token的上下文窗口。
這相當于大約75萬個單詞,或者是10到15本長篇小說。你可以把整套代碼庫、幾千頁的法律文件一股腦扔給它,它能一口氣讀完。
但是,讀得多不代表讀得懂。以前有個著名的“長文本遺忘”問題,塞的東西越多,AI腦子越糊涂。
RULER基準測試(專門測試大海撈針能力的)顯示,在一百萬token的重壓下,Claude Opus 4.6 的得分是76%。而上一代 Sonnet 4.5?只有18%。
這已經不是升級了,這是跨維度的打擊。
Hacker News上有個老哥做過一個測試,特有意思。他把《哈利波特》前四本書全扔進去,讓AI找出50個官方咒語。
結果:它找出了49個。唯一漏掉的是“Slugulus Eructo”(那個讓人吐鼻涕蟲的惡心咒語)。
但這還不是最炸裂的。
在各種基準測試上,Opus 4.6 簡直是屠榜般的存在。
在GDPval(金融、法律、數據分析等專業任務)上,它的Elo得分是1606。這比OpenAI的GPT-5.2高出整整144分,面對面PK的勝率高達70%。
還有那個著名的ARC-AGI 2測試,專門考常識和直覺邏輯——這對人類很容易,對AI卻難如登天。Opus 4.5才考了37.6%,你猜Opus 4.6考了多少?68.8%。幾近翻倍!
還有一個我最愛的測試:VendingBench。這是一個模擬經營自動售貨機的游戲,看誰賺得多。
- Opus 4.5:賺了5000刀。
- GPT-5.2:才3500刀。
- Opus 4.6:狂賺8000刀!
這完美展示了模型在長時間跨度下的規劃和優化能力。記住這一點,因為后面你會發現這有多恐怖。
“特工團隊”改變游戲規則
這就是讓開發者們徹底變天的功能:Agent Teams(智能體團隊)。
以前是一個AI干活,現在?你可以指揮一群Claude特工并行工作。
有一個“包工頭”負責統籌,分配任務,匯總結果。其他的特工各自在自己的上下文窗口里埋頭苦干,它們之間甚至還能直接溝通。
這簡直就是一個真實的開發團隊啊!你甚至可以跳過包工頭,直接跟下面的“員工”單聊。
Anthropic推薦了四種用法:多線研究(每人查一個方向再匯總)、并行功能開發、多假設調試、系統層級協調。
產品總監Scott White說得好聽:“這就像擁有一支才華橫溢的協作團隊在實時配合。”
當然,代價也是有的。每個特工都要燒錢。Opus的價格還是輸入每百萬15刀,輸出75刀。人多力量大,賬單也大。
足以讓所有人脊背發涼的發現
接下來,故事開始走向驚悚片了。
在發布前,Anthropic的安全團隊把 Opus 4.6 關進了一個只有基礎工具(調試器、模糊測試器)的小黑屋,沒給任何特殊指令。
只有一個目標:找Bug。
結果它在當今使用最廣泛的開源庫中,發現了超過500個零日漏洞(Zero-day)。
每一個漏洞,都經過了Anthropic內部或外部研究員的實錘驗證。
其中有GhostScript的系統崩潰漏洞,OpenSC的內存溢出,還有一個藏在libcgif里的極度隱蔽的漏洞。最后一個簡直絕了,因為它需要對GIF格式的LZW壓縮算法有極深的理解才能發現。
沒有自動掃描器能發現它。
這模型甚至自己寫了一個概念驗證代碼,來證明這個漏洞是真的能被利用的。
Anthropic的安全老大Logan Graham直言:這以后可能就是保護開源軟件的主要手段了。
當你意識到全球的基礎設施幾乎都跑在這些庫上時,你就知道這事兒有多大了。
同一天,OpenAI也不甘示弱,掏出了GPT-5.3 Codex。這貨有個奇葩特點:它是第一個參與創造自己的AI。
早期版本就開始調試自己的訓練數據,診斷自己的結果。團隊都被它自我進化的速度嚇傻了。
如果你讀過我上一篇關于五個CEO都在預警這件事的文章,你就知道,我們真的進入了AI自我進化的時代。
GPT-5.3 Codex比上一代快25%,在編程基準測試SWE Bench Pro上分更高。
但它也是第一個被OpenAI列為網絡安全“高能力”的模型。強到可能被用來發動真實的網絡攻擊。就因為這個,測試版都被推遲發布了。Sam Altman在X上都承認了。
兩家公司,同一天,發布了突破極限的模型,并且都承認:這玩意兒帶來了前所未有的風險。
沒人準備好迎接這條指數曲線
要理解這一切,你得看看這張正在瘋傳的圖。這是一個對數坐標圖,顯示了模型在沒有人類干預下能獨立工作多久。
不同LLM能完成50%任務的時間跨度。來源:METR。
那條曲線幾乎是垂直的。
每一個新模型,都在指數級地延長它能獨立工作的時長。
Claude、Codex、Cursor——所有的路都指向同一個終點:AI特工不再是只能干幾秒鐘活的助理,而是能連續工作幾個小時、甚至幾天的“員工”。
一邊是Claude的特工團隊,一邊是GPT-5.3的交互模式,我們不再是在和AI聊天了。我們是在指揮一個虛擬團隊去搞定整個項目。
Anthropic還有兩個被低估的大招:“自適應思維”(面對難題自動深思熟慮)和“上下文壓縮”(腦子滿了自動總結舊信息騰地方)。
這意味著什么?近乎無限的工作時長。
我們正站在歷史的轉折點上
AI模型不再是簡單的聊天工具了。
它們是潛伏在你軟件里的自主特工,能發現人類找不到的漏洞,能協調虛擬團隊,甚至能自我進化。
GitHub在發布當天就把Opus 4.6塞進了Copilot。微軟把它放進了Foundry平臺。所有的巨頭都在瘋狂搶位。
Anthropic的產品總監Scott White在CNBC上說得再直白不過了:“Claude已經從一個你跟它聊天來完成小任務的模型,變成了一個你可以把重要工作完全托付給它的存在。”
Opus 4.5到4.6,只用了三個月。OpenAI同一天回擊。Google的Gemini肯定也在憋大招。
這種技術迭代的節奏,在人類歷史上前所未有。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.