
誰能想到呢,本周的硅谷AI圈,已經(jīng)演變到了大家喜聞樂見的互噴環(huán)節(jié)。
起因是周三晚上,Anthropic在他們美國人的“春晚”上,放了幾條廣告,明牌嘲諷OpenAI在ChatGPT里塞廣告,直接把諷刺都打到公屏上了:廣告在入侵AI,但不會出現(xiàn)在 Claude。
![]()
奧特曼當(dāng)場就坐不住了,凌晨六點(diǎn)在X上敲了一篇長文,說Anthropic的廣告"明顯不誠實","德州用ChatGPT免費(fèi)版的人比全美用Claude的人還多"。。
不過插廣告這事兒確實不是大伙喜歡的,可以預(yù)見的,評論區(qū)一邊倒地,說他破防了。
哎,光說不解氣,不然打一架?
第二天,還真打起來了。不過不是線下真實嗷,是 Anthropic 把 Claude Opus 4.6 擺上了臺面。
![]()
OpenAI 那邊也不甘示弱,在Opus 4.6上線二十多分鐘之后,火速掏出了GPT-5.3 Codex應(yīng)戰(zhàn)。
![]()
不過,這波對轟雖然熱鬧,兩邊的招式其實不太一樣。 Anthropic 這次,是拿出了自己最強(qiáng)的通用模型,而 OpenAI 拿出的 Codex,其實是個專精代碼的“偏科生”,對大多數(shù)人來說用不到。。總感覺氣勢上就輸一頭啊。
所以今天世超先撇開那個寫代碼的,還是來聊聊大家更感興趣的通用模型, Claude Opus 4.6 吧。
先說結(jié)論,在"干活"這件事上,Opus 4.6 應(yīng)該可以算目前最強(qiáng)的大模型。
跑分圖什么的,大伙估計都看膩了,也基本都是分?jǐn)?shù)要比老模型高一點(diǎn)點(diǎn),當(dāng)然也有少量不如的,不過對咱來說,看的還是綜合體驗嘛。
![]()
所以我們仔細(xì)翻了下 Anthropic 官方的介紹和 System Card,把幾個真正有料的升級給各位拎了出來。
首先,上下文窗口終于破百萬Tokens了。
之前,Opus系列最讓人詬病的,就是20萬Token的上下文,而隔壁 Gemini 的百萬上下文早用了快兩年了。
而 Opus 4.6 在 MRCR v2 這個評測里拿了76分,我們俗稱“大海撈針”,也就是在巨長上下文里找到我們想找的東西,而上一代Sonnet 4.5是18.5分,一下提升了四倍,可以說是質(zhì)變了。
![]()
但上下文這玩意,重點(diǎn)不是數(shù)字大不大,而是能不能真好用啊,很多模型號稱百萬上下文,實際上塞到后面就開始記憶錯亂,胡言亂語了。
所以這次 Anthropic 是有備而來,他們提了一個叫“上下文衰減”的概念,是指上下文過長時,注意力分配被稀釋,導(dǎo)致模型難以精準(zhǔn)捕捉一些細(xì)小的信息。說白了就是 AI 的腦容量被稀釋了,讀了后面忘前面,在海量信息里找不著重點(diǎn)。
![]()
而Claude現(xiàn)在的解決思路,叫“上下文壓縮”,能在對話達(dá)到 Token 閾值時,自動將冗長的歷史記錄壓縮成高濃度的摘要,就好比你追了幾百集電視劇腦子不夠用了,它不僅幫你把前面那些啰嗦的情節(jié)刪了給大腦騰內(nèi)存,還能自動生成前情提要讓你無縫銜接下一集。
但世超實測了一下,是有點(diǎn)想吐槽的。
我缺的是上下文嗎,好像是額度啊!Pro 版訂閱根本聊不到上下文頂點(diǎn)就用光光了。
![]()
而且我試了一下,一次喂大量上下文的能力,是干不過Gemini的。比如我最近有個研究物理的項目,找到了一份天文學(xué)家里希爾的原版著作,在閱讀中碰到了疑問,因為他的一個計算結(jié)果和牛頓老師完全不同!
然后我把這個200多頁的書丟給Gemini,問他到底是誰的問題。
Gemini讀完,理解得又快又準(zhǔn),并且精確指出了里希爾原文的頁碼數(shù),一通操作指出,牛頓是對的。
![]()
而 Opus 4.6 這邊好像是有 bug,一本書根本喂不進(jìn)去,顯示error。我最后只好給它拆成了兩半。
![]()
不過拆完就蠻順利的了,它成功找到了出問題的頁碼數(shù),還給了精確的推理分析,質(zhì)量跟Gemini 3 Pro不相上下。
![]()
所以能力這塊是完全過關(guān)的,至于為什么一次喂不進(jìn)一本書,可能是一種仁慈的防token爆炸機(jī)制吧。
當(dāng)然就這也不夠說“干活最強(qiáng)”,Claude現(xiàn)在最強(qiáng)的地方,其實是“實操”的能力。
咋說呢?你就看之前AI圈爆火的干活工具,什么 MCP,Skill,都是Claude先用上,就連不久前爆火的 Clawdbot (現(xiàn)OpenClaw)現(xiàn)在的默認(rèn)推薦模型都是Opus 4.6。
![]()
就是因為 Opus 這玩意,操作電腦的能力,確實太狠了。
比如我問它,我現(xiàn)在用的顯示器,二手貨最便宜能多少錢。
![]()
我就只需要給它說一句話,它就能自己調(diào)用MCP,連接我的電腦,查看我的顯示器型號,再自己上網(wǎng)去閑魚搜最低價。
![]()
最終搜出來的價格,跟我自己上閑魚搜的大差不差,而且最騷的是它還知道國補(bǔ),讓我別買二手,考慮直接加錢換新,全程不需要我干預(yù),可以說真的很像真人助理了。
![]()
除了這個,Claude Opus的編碼能力一直是壓著其他家打的,從競技場排名來看,Opus 4.5已經(jīng)打遍無敵手了,現(xiàn)在又來了個4.6,真遙遙領(lǐng)先了。
![]()
再配合上超模的動手能力,能力據(jù)說已經(jīng)能媲美高級工程師——這評價來自日本樂天公司的AI總經(jīng)理,說 Opus 4.6 一天之內(nèi)自己修好并關(guān)閉了 13 個 Bug,還看懂了另外 12 個問題是誰負(fù)責(zé)的,自動把活派給了對應(yīng)的程序員。
![]()
咱也來了點(diǎn)簡單的活,讓它寫個 CS 的 demo 發(fā)到我電腦上。
![]()
結(jié)果確實好用,html文件直接出現(xiàn)在了桌面,點(diǎn)開就能玩,血量、地圖、子彈都顯示得完全正確。

最后,Opus 4.6 還有個最頂級的能力,搜集信息,而且不是一般的信息,是各種你不確定的,犄角旮旯里的信息,它都能給你找著。AI 界把這叫做 BrowseComp,Opus 4.6 強(qiáng)勢登頂。
![]()
這一點(diǎn)在世超日常使用時也深有體會,其他模型搜不到的情報,Claude 能直接給你定位來源,然后端上來。
比如,差友都知道咱差評有個內(nèi)部梗,就是925,不算出圈,基本只有咱差友自己知道。
那可能有些新差友,不知道這個梗,可以去哪搜呢?咱先用Gemini和GPT試試。
結(jié)果無一例外,全部敗下陣來。
![]()
![]()
結(jié)果去問了下Claude,直接一個精準(zhǔn)命中,連今日最佳都知道,原來 Claude 也是差友吧。。
![]()
這也是為啥世超最近驗證傳言、搜集事實都用 Claude Opus,省心的不止一星半點(diǎn)啊。
這一堆子體驗下來,Claude Opus 整體給人一種成熟穩(wěn)重的感覺,如果你讓我選擇一個“它辦事我放心”的AI,我毫不猶豫選的就是Claude。既然這么強(qiáng),為啥在用戶這塊老不溫不火啊?世超覺得,和 Claude 選擇的路線脫不開關(guān)系。
Anthropic 從一開始就奔著"最能干的AI同事"去的,你看它的產(chǎn)品線,Claude Code、Cowork、Excel插件,全都一個目的,幫你把活干完。
而這,也是老板最喜歡的特質(zhì),所以企業(yè)客戶占了 Anthropic 收入的 80%,這條路確實它最能打。
Claude 的風(fēng)格這么偏商務(wù)風(fēng),我覺得也跟它目標(biāo)客戶有關(guān)。(說是這么說,感覺比其他兩家好看多了。。)
![]()
而其他兩家則是各有各的說法。
ChatGPT 這邊,奧特曼的野心顯然不只在做一個“好員工”了,最近的產(chǎn)品節(jié)奏也是真的猛,光 2026 年到現(xiàn)在就發(fā)了ChatGPT Health、Codex 桌面 App、Prism(科研工具),以及剛發(fā)布的企業(yè)平臺 Frontier,還想搶塊企業(yè)市場的蛋糕。 這意思像是,C 端靠用戶量和廣告,B 端靠平臺和生態(tài),兩手都要抓,就是不知道抓不抓得住了。
至于Gemini,則想靠生態(tài)進(jìn)行一個降維打擊,在Gemini里你能干谷歌生態(tài)里的任何事,回郵件,傳網(wǎng)盤,甚至看Youtube。再加上幾十億臺安卓手機(jī),如果 AI 真像水電一樣滲進(jìn)你每天都在用的 App 里時,單純賣模型的公司只能拿頭打。
至于誰能笑到最后?
有個網(wǎng)友的評論我覺得很到位:"2026年最聰明的做法不是選一個最好的模型,而是知道每個模型最擅長什么,換著用。"
說得非常對啊,我認(rèn)可,但唯一的缺點(diǎn)是我錢包有點(diǎn)不對了。
撰文:不咕
編輯:江江&面線
美編:不咕
圖片、資料來源:
Anthropic、X
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.